11일 전
엔드투엔드 인간-객체 상호작용 탐지: HOI 트랜스포머
Cheng Zou, Bohan Wang, Yue Hu, Junqi Liu, Qian Wu, Yu Zhao, Boxun Li, Chenguang Zhang, Chi Zhang, Yichen Wei, Jian Sun

초록
우리는 인간-객체 상호작용(HOI) 탐지를 종단 간(end-to-end) 방식으로 해결하기 위해 HOI Transformer를 제안한다. 기존의 접근 방식은 HOI 작업을 객체 탐지와 상호작용 분류의 별개 단계로 분리하거나, 대체 상호작용 문제를 도입한다. 반면, 우리 방법인 HOI Transformer는 수많은 수작업으로 설계된 구성 요소를 제거함으로써 HOI 처리 파이프라인을 간소화한다. HOI Transformer는 전역 이미지 맥락을 바탕으로 객체와 인간 간의 관계를 추론하며, 병렬적으로 HOI 인스턴스를 직접 예측한다. 통합적인 방식으로 HOI 예측을 유도하기 위해 오각형 매칭 손실(quinquuple matching loss)을 도입하였다. 제안하는 방법은 개념적으로 훨씬 간단하며, 더 높은 정확도를 보였다. 복잡한 부가 기능 없이도 HOI Transformer는 HICO-DET에서 $26.61\%$의 $AP$와 V-COCO에서 $52.9\%$의 $AP_{role}$을 달성하여, 기존 방법들을 능가하면서도 훨씬 간단한 구조를 갖는다는 장점을 보였다. 우리는 본 연구의 접근 방식이 HOI 작업에 있어 간단하면서도 효과적인 대안이 되길 기대한다. 코드는 https://github.com/bbepoch/HoiTransformer 에서 제공된다.