
초록
인간-객체 상호작용(Human-Object Interaction, HOI)은 인간, 객체, 그리고 암시적 상호작용(동사)로 구성된다. 기존의 방법들이 픽셀을 직접 HOI 의미로 매핑하는 방식에 반해, 본 연구는 분석적인 관점에서 HOI 학습을 위한 새로운 접근법을 제안한다. 조화 분석(Harmonic Analysis)과 유사하게, 조화 분석의 목적은 기본 파동의 중첩을 통해 신호를 표현하는 것이라면, 본 연구는 HOI 분석(HOI Analysis)을 제안한다. 우리는 일관된 HOI는 고립된 인간과 객체로 분해될 수 있으며, 반대로 고립된 인간과 객체 역시 다시 일관된 HOI로 통합될 수 있다고 주장한다. 더 나아가, 동일한 HOI를 가지는 인간-객체 쌍 간의 변환도 분해와 통합을 통해 보다 쉽게 접근할 수 있다. 그 결과, 암시적 동사는 변환 함수 공간 내에서 표현된다. 이러한 사고방식을 바탕으로, 본 연구는 위의 변환을 구현하고 널리 사용되는 HOI 탐지 벤치마크에서 최상의 성능을 달성하기 위한 통합-분해 네트워크(Integration-Decomposition Network, IDN)를 제안한다. 코드는 다음 주소에서 제공된다: https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/IDN-(Integrating-Decomposing-Network).