17일 전

객체 영역 비디오 트랜스포머

Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson
객체 영역 비디오 트랜스포머
초록

최근 영상 트랜스포머는 영상 이해 분야에서 뛰어난 성과를 보이며 기존의 CNN 모델을 넘어섰지만, 기존의 영상 트랜스포머 모델들은 객체를 명시적으로 모델링하지 않으며, 이는 행동 인식에 있어 객체가 핵심적인 역할을 할 수 있음에도 불구하고 중요한 한계로 지적되고 있다. 본 연구에서는 영상 트랜스포머 레이어를 객체 중심의 정보를 직접 통합할 수 있도록 확장한 객체 영역 영상 트랜스포머(Object-Region Video Transformers, ORViT)를 제안한다. ORViT는 초기 레이어부터 객체 중심 표현을 융합하고 이를 트랜스포머 레이어로 전파함으로써 네트워크 전체의 시공간 표현에 영향을 미치는 핵심 아이디어를 도입한다. 제안하는 ORViT 블록은 두 가지 객체 수준의 스트림, 즉 외형(apperance)과 동역학(dynamics)을 포함한다. 외형 스트림에서는 '객체 영역 어텐션(Object-Region Attention)' 모듈이 패치와 객체 영역에 대해 자체 어텐션을 적용함으로써, 시각적 객체 영역이 균일한 패치 토큰과 상호작용하며, 맥락화된 객체 정보를 풍부하게 제공한다. 또한 별도의 '객체 동역학 모듈(Object-Dynamics Module)'을 통해 객체의 궤적 상호작용을 모델링하고, 두 스트림을 어떻게 통합할 수 있는지 제시한다. 제안한 모델은 네 가지 작업 및 다섯 개의 데이터셋에서 평가되었으며, SomethingElse에서 복합적 및 희소 샘플 행동 인식, AVA에서 시공간 행동 탐지, 그리고 Something-Something V2, Diving48, Epic-Kitchen100에서 표준 행동 인식을 수행하였다. 모든 작업과 데이터셋에서 강력한 성능 향상을 입증하며, 트랜스포머 아키텍처에 객체 표현을 통합하는 모델의 가치를 입증하였다. 코드 및 사전 학습된 모델은 프로젝트 페이지에서 확인할 수 있다. \url{https://roeiherz.github.io/ORViT/}

객체 영역 비디오 트랜스포머 | 최신 연구 논문 | HyperAI초신경