3달 전

상호작용 제안에 대한 구조 인지형 Transformer를 활용한 인간-객체 상호작용 탐지 탐구

Yong Zhang, Yingwei Pan, Ting Yao, Rui Huang, Tao Mei, Chang-Wen Chen
상호작용 제안에 대한 구조 인지형 Transformer를 활용한 인간-객체 상호작용 탐지 탐구
초록

최근 고성능의 인간-객체 상호작용(Human-Object Interaction, HOI) 탐지 기법들은 트랜스포머 기반 객체 탐지기(예: DETR)의 영향을 크게 받고 있다. 그러나 대부분의 기법들은 단일 단계(one-stage) 방식으로 단순한 트랜스포머를 통해 매개변수화된 상호작용 쿼리를 HOI 예측 집합으로 직접 매핑한다. 이로 인해 상호작용 간 또는 내부의 풍부한 구조적 정보가 여전히 미흡하게 다뤄지고 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 상호작용 제안에 기반한 구조 인식형 트랜스포머(Structure-aware Transformer over Interaction Proposals, STIP)라는 새로운 트랜스포머 기반 HOI 탐지기 구조를 제안한다. 이 설계는 HOI 집합 예측 과정을 두 단계로 분리한다. 먼저 상호작용 제안(interaction proposal)을 생성하고, 이후 비매개변수화된 상호작용 제안들을 구조 인식형 트랜스포머를 통해 HOI 예측으로 변환한다. 구조 인식형 트랜스포머는 기존 트랜스포머의 기능을 보완하여, 상호작용 제안들 간의 종합적 의미 구조뿐만 아니라 각 상호작용 제안 내에서 인간/객체의 국소적 공간 구조까지 인코딩함으로써, HOI 예측의 정확도를 강화한다. V-COCO 및 HICO-DET 벤치마크에서 실시한 광범위한 실험을 통해 STIP의 효과성이 입증되었으며, 최신 기술 대비 우수한 성능을 기록하였다. 소스 코드는 \url{https://github.com/zyong812/STIP}에서 제공된다.