객체 영역 비디오 트랜스포머

최근 영상 트랜스포머는 영상 이해 분야에서 뛰어난 성과를 보이며 기존의 CNN 모델을 넘어섰지만, 기존의 영상 트랜스포머 모델들은 객체를 명시적으로 모델링하지 않으며, 이는 행동 인식에 있어 객체가 핵심적인 역할을 할 수 있음에도 불구하고 중요한 한계로 지적되고 있다. 본 연구에서는 영상 트랜스포머 레이어를 객체 중심의 정보를 직접 통합할 수 있도록 확장한 객체 영역 영상 트랜스포머(Object-Region Video Transformers, ORViT)를 제안한다. ORViT는 초기 레이어부터 객체 중심 표현을 융합하고 이를 트랜스포머 레이어로 전파함으로써 네트워크 전체의 시공간 표현에 영향을 미치는 핵심 아이디어를 도입한다. 제안하는 ORViT 블록은 두 가지 객체 수준의 스트림, 즉 외형(apperance)과 동역학(dynamics)을 포함한다. 외형 스트림에서는 '객체 영역 어텐션(Object-Region Attention)' 모듈이 패치와 객체 영역에 대해 자체 어텐션을 적용함으로써, 시각적 객체 영역이 균일한 패치 토큰과 상호작용하며, 맥락화된 객체 정보를 풍부하게 제공한다. 또한 별도의 '객체 동역학 모듈(Object-Dynamics Module)'을 통해 객체의 궤적 상호작용을 모델링하고, 두 스트림을 어떻게 통합할 수 있는지 제시한다. 제안한 모델은 네 가지 작업 및 다섯 개의 데이터셋에서 평가되었으며, SomethingElse에서 복합적 및 희소 샘플 행동 인식, AVA에서 시공간 행동 탐지, 그리고 Something-Something V2, Diving48, Epic-Kitchen100에서 표준 행동 인식을 수행하였다. 모든 작업과 데이터셋에서 강력한 성능 향상을 입증하며, 트랜스포머 아키텍처에 객체 표현을 통합하는 모델의 가치를 입증하였다. 코드 및 사전 학습된 모델은 프로젝트 페이지에서 확인할 수 있다. \url{https://roeiherz.github.io/ORViT/}