9일 전
자기 중심 동작 예측을 위한 상호작용 영역 시각 트랜스포머
Debaditya Roy, Ramanathan Rajendiran, Basura Fernando

초록
인간-객체 상호작용은 가장 중요한 시각적 단서 중 하나이며, 본 연구에서는 제자리 동작 예측(egocentric action anticipation)을 위한 인간-객체 상호작용을 표현하는 새로운 방식을 제안한다. 우리는 동작 수행으로 인해 객체와 인간 손의 외관이 어떻게 변화하는지를 계산함으로써 상호작용을 모델링하는 새로운 트랜스포머 변형을 제안하며, 이러한 변화량을 활용해 영상 표현을 보다 정교하게 개선한다. 구체적으로, 손과 객체 간의 상호작용은 공간적 교차 주의(Spatial Cross-Attention, SCA)를 사용하여 모델링하고, 환경적 맥락 정보를 추가로 반영하기 위해 궤적 교차 주의(Trajectory Cross-Attention)를 도입하여 환경에 의해 개선된 상호작용 토큰을 생성한다. 이러한 토큰을 기반으로 행동 예측을 위한 상호작용 중심의 영상 표현을 구성한다. 본 모델을 InAViT라 명명하며, 대규모 제자리 영상 데이터셋인 EPICKITCHENS100(EK100)과 EGTEA Gaze+에서 최첨단의 행동 예측 성능을 달성하였다. InAViT는 객체 중심 영상 표현을 포함한 다른 시각 트랜스포머 기반 방법들보다 우수한 성능을 보였으며, EK100 평가 서버에서 제출 당시 공개 리더보드 상에서 최고 성능을 기록하였다. 특히, 두 번째로 높은 성능을 기록한 모델보다 평균 top-5 재현율(mean-top5 recall)에서 3.3% 우수한 성능을 나타냈다.