
초록
인간-객체 상호작용(HOI) 탐지는 객체 탐지 작업의 후행 과제로, 이미지 내 인간과 객체의 쌍을 국소화하고 인간과 객체 간의 의미적 관계를 추출하는 것을 요구한다. 최근 한 단계적 접근 방식이 높은 효율성으로 인해 이 과제에서 새로운 트렌드로 부상하고 있다. 그러나 이러한 접근 방식은 가능한 상호작용 지점을 탐지하거나 인간-객체 쌍을 필터링하는 데 집중하며, 다양한 객체들이 공간 척도에서 위치와 크기 측면에서 가지는 다양성을 간과하고 있다. 이 문제를 해결하기 위해, 우리는 다중 척도 아키텍처를 활용하여 다양한 공간 척도에서 특징을 추출하고, 쿼리 기반 앵커를 사용하여 HOI 인스턴스의 모든 요소를 예측하는 트랜스포머 기반 방법인 QAHOI(Query-Based Anchors for Human-Object Interaction detection)를 제안한다. 또한 강력한 백본(Backbone)이 QAHOI의 정확도를 크게 향상시킨다는 점을 추가로 탐구하였으며, 트랜스포머 기반 백본을 갖춘 QAHOI는 HICO-DET 벤치마크에서 최근의 최상위 성능을 기록한 방법들에 비해 큰 성능 우위를 보였다. 소스 코드는 $\href{https://github.com/cjw2021/QAHOI}{\text{이 GitHub URL}}$에서 공개되어 있다.