객체 지도형 다모달 보정된 의미 구조를 이용한 인간-객체 상호작용 탐지

인간-객체 상호작용(HOI) 탐지는 세밀한 관점에서 인간 중심 이미지를 이해하는 데 있어 핵심적인 과제이다. 최근엔 엔드투엔드(End-to-End) HOI 탐지 모델이 급성장하고 있으나, 이들의 병렬적인 인간/객체 탐지와 동사 클래스 예측 파라다임은 이단계(두 단계) 방법이 지닌 장점인 '객체 기반 계층 구조(Object-guided Hierarchy)'를 상실하고 있다. 하나의 HOI 트리플릿에서 등장하는 객체는 예측할 동사에 직접적인 단서를 제공한다. 본 논문에서는 객체 기반 통계적 사전 지식을 활용하여 엔드투엔드 모델의 성능을 향상시키는 것을 목표로 한다. 구체적으로, 동사 의미 모델(VSM, Verb Semantic Model)을 도입하고, 이 객체 기반 계층 구조로부터 유익을 얻기 위해 의미 집계(Semantic Aggregation) 기법을 활용한다. VSM이 HOI 데이터셋의 사전 지식과 일치하도록 최적화하기 위해 유사도 기반 KL 손실(SKL, Similarity KL loss)을 제안한다. 또한 정적 의미 임베딩 문제를 해결하기 위해, 교차 모달 캘리브레이션(CMC, Cross-Modal Calibration)을 통해 모달 간 인식 가능한 시각적 및 의미적 특징을 생성한다. 위의 모듈들을 통합하여 객체 기반 교차 모달 캘리브레이션 네트워크(OCN, Object-guided Cross-modal Calibration Network)를 구성하였다. 두 가지 주요 HOI 탐지 벤치마크에서 수행된 실험을 통해, 통계적 사전 지식을 통합하는 것이 매우 중요하며, 기존 최고 수준의 성능을 달성함을 입증하였다. 보다 심층적인 분석을 통해 제안된 모듈들이 더 강력한 동사 예측 능력을 제공하며, 사전 지식을 보다 효과적으로 활용하는 새로운 방법임을 확인할 수 있었다. 코드는 \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}에서 공개되어 있다.