
초록
이전의 대부분의 HOI 방법들이 인간-객체 특징을 더 잘 학습하는 데 집중하는 반면, 우리는 새로운且 보완적인 접근법인 카테고리 쿼리 학습(category query learning)을 제안한다. 이러한 쿼리는 상호작용 카테고리와 명시적으로 연결되며, 트랜스포머 디코더를 통해 이미지에 특화된 카테고리 표현으로 변환되고, 보조적인 이미지 수준 분류 작업을 통해 학습된다. 이 아이디어는 이전의 다중 레이블 이미지 분류 방법에 기반하고 있으나, 본 연구에서 처음으로 도전적인 인간-객체 상호작용 분류 작업에 적용된 것이다. 제안한 방법은 간단하고 일반적이며 효과적이며, 세 가지 대표적인 HOI 베이스라인에서 검증되었으며, 두 개의 벤치마크에서 새로운 최고 성능을 달성하였다.