17일 전

홉퍼: 시공간 추론을 위한 다중 훑기 변환기

Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf
홉퍼: 시공간 추론을 위한 다중 훑기 변환기
초록

이 논문은 영상 내에서 시공간적 객체 중심 추론 문제를 다룬다. 본 연구의 핵심은 객체의 지속성(object permanence) 개념에 있다. 즉, 객체가 영상 내에서 이동하면서 다른 객체에 의해 가려지거나 포함되거나 운반되는 상황에서도 그 객체의 위치에 대해 추론할 수 있는 능력을 의미한다. 기존의 딥러닝 기반 접근법은 영상 추론 문제에 적용될 때 종종 시공간적 편향(spaitotemporal biases)을 겪는다. 본 연구에서는 다중 훑기(Multi-hop) 트랜스포머를 활용하여 영상 내 객체 지속성 추론을 수행하는 Hopper 모델을 제안한다. 주어진 영상과 위치 쿼리에 대해, Hopper는 이미지 프레임과 객체 트랙을 기반으로 반복적으로 중요한 프레임을 자동으로 건너뛰며, 관심 객체의 최종 위치를 예측한다. 또한, 시공간적 편향을 줄이기 위해 대조 손실(contrastive loss)을 사용하는 것이 효과적임을 실험적으로 입증한다. CATER 데이터셋을 기반으로 평가한 결과, Hopper는 단지 1 FPS의 프레임 속도로도 몇 개의 핵심 프레임만을 탐색함으로써 Top-1 정확도 73.2%를 달성하였다. 또한, 다단계 추론을 필요로 하는 객체 위치 추적을 수행할 수 있음을 보여주기 위해 장기 추론 능력을 갖춘 CATER-h 데이터셋을 구축함으로써 Hopper의 장기 추론 성능을 입증하였다.

홉퍼: 시공간 추론을 위한 다중 훑기 변환기 | 최신 연구 논문 | HyperAI초신경