ViTGaze: Vision Transformers에서 상호작용 특성을 활용한 시선 추적

시선 추적은 사람의 시선 초점을 예측하여 인간-장면 상호작용을 해석하는 것을 목표로 합니다. 기존 접근 방식들은 종종 초기 단계에서 시선 대상 예측을 위해 다중 모달 정보를 추출하는 두 단계 프레임워크를 채택합니다. 결과적으로, 이러한 방법들의 효과는 앞서 진행된 모달 추출의 정확도에 크게 의존합니다. 다른 연구에서는 복잡한 디코더를 사용하는 단일 모달 접근 방식을 취해 네트워크의 계산 부담을 증가시키기도 합니다. 사전 훈련된 일반적인 비전 트랜스포머(Vision Transformers, ViTs)의 뛰어난 성공에 영감을 받아, 우리는 새로운 단일 모달 시선 추적 프레임워크인 ViTGaze를 소개합니다. 이전 방법들과 달리, 주로 강력한 인코더(디코더 매개변수 비율 1% 미만)를 기반으로 하는 혁신적인 시선 추적 프레임워크를 제안합니다. 우리의 주요 통찰력은 자기 주의 메커니즘 내부의 토큰 간 상호작용이 인간과 장면 사이의 상호작용으로 전환될 수 있다는 것입니다. 이 가정을 활용하여, 우리는 4D 상호작용 인코더와 2D 공간 안내 모듈로 구성된 프레임워크를 설계하여 자기 주의 맵에서 인간-장면 상호작용 정보를 추출하였습니다.또한, 우리의 연구는 자기 지도 사전 훈련을 받은 ViT가 상관 관계 정보를 추출하는 능력이 향상됨을 밝혔습니다. 제안된 방법의 성능을 입증하기 위해 많은 실험들이 수행되었습니다. 우리의 방법은 모든 단일 모달 방법 중 최고 수준(SOTA)의 성능(곡선 아래 면적(AUC) 점수에서 3.4% 개선, 평균 정밀도(AP)에서 5.1% 개선)을 달성하였으며, 다중 모달 방법과 비교해도 매개변수 수가 59% 적음에도 불구하고 매우 유사한 성능을 보입니다.