DIRV: 엔드투엔드 인간-객체 상호작용 검출을 위한 밀도 상호작용 영역 투표

최근 몇 년간 인간-객체 상호작용(HOI) 탐지 분야는 놀라운 발전을 이뤘다. 그러나 기존의 이단계(두 단계) 방식은 일반적으로 추론 속도가 느리다는 문제가 있다. 반면, 기존의 일단계 방식은 주로 상호작용 영역의 합집합(union region)에 초점을 맞추며, 이로 인해 HOI 탐지에 불필요한 시각적 정보가 간섭 요소로 작용한다. 이러한 문제를 해결하기 위해 본 논문에서는 인간-객체 상호작용 문제에 새로운 개념인 '상호작용 영역(interaction region)'을 도입하여, 새로운 일단계 HOI 탐지 방법 DIRV를 제안한다. 기존 방법과 달리, 본 방법은 각 인간-객체 쌍에 대해 다양한 스케일에서 밀집하게 샘플링된 상호작용 영역에 집중함으로써, 상호작용에 가장 핵심적인 미세한 시각적 특징을 효과적으로 포착한다. 또한, 단일 상호작용 영역의 탐지 한계를 보완하기 위해, 기존의 비최대 억제(NMS, Non-Maximal Suppression) 방식 대신 겹치는 상호작용 영역을 적극적으로 활용하는 새로운 투표 전략을 도입한다. V-COCO와 HICO-DET 두 가지 대표적인 벤치마크에서 실시한 광범위한 실험 결과, 제안하는 방법은 기존 최고 성능(SOTA) 기법들을 크게 능가하며, 가장 빠른 추론 속도와 가장 경량의 네트워크 아키텍처를 달성하였다. 추가 입력 없이도 V-COCO에서 56.1 mAP의 성능을 달성하였다. 본 연구의 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/MVIG-SJTU/DIRV