11일 전
사람-객체 상호작용 탐지에서 술어 시각적 맥락 탐구
Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould

초록
최근 DETR 기반 아키텍처가 인간-객체 상호작용(HOI) 연구에서 주류 접근 방식으로 부상하고 있다. 특히 이중 단계(transformer 기반) HOI 탐지기는 높은 성능과 뛰어난 학습 효율성으로 가장 우수한 성능을 보이는 방법 중 하나다. 그러나 이러한 기법들은 종종 객체의 세부적인 맥락 정보가 부족한 객체 특징에 기반하여 HOI 분류를 수행하며, 객체의 정체성과 경계 상자 외곽 정보와 같은 시각적 특징을 우선시하면서 자세(pose) 및 방향성 정보를 배제한다. 이는 복잡하거나 모호한 상호작용 인식을 자연스럽게 저해한다. 본 연구에서는 시각화 및 철저히 설계된 실험을 통해 이러한 문제를 분석한다. 이를 바탕으로, 교차 주의( cross-attention)를 통해 이미지 특징을 어떻게 효과적으로 재도입할 수 있는지 탐구한다. 개선된 쿼리 설계, 키(key)와 밸류(value)에 대한 광범위한 탐색, 그리고 상자 쌍의 위치 임베딩을 공간적 안내로 활용함으로써, 보강된 술어 시각적 맥락(Predicate Visual Context, PViC)을 갖춘 본 모델은 HICO-DET 및 V-COCO 벤치마크에서 최신 기술(SOTA)을 초월하며, 낮은 학습 비용을 유지한다.