13일 전
오미보어: 다양한 시각적 모달리티를 위한 단일 모델
Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra

초록
이전 연구들은 이미지, 영상, 3D 데이터 등의 다양한 시각 모달리티를 별도로 분석하며 각각에 맞는 독립적인 아키텍처를 개발해왔다. 반면 본 논문에서는 동일한 모델 파라미터를 사용하여 이미지, 영상, 단일 시점 3D 데이터 모두를 효과적으로 분류할 수 있는 단일 모델을 제안한다. 우리의 '오미바이어(Omnivore)' 모델은 트랜스포머 기반 아키텍처의 유연성을 활용하며, 다양한 모달리티의 분류 작업을 함께 학습한다. 오미바이어는 학습이 간단하며, 표준적인 오프더쉐lf(Off-the-shelf) 데이터셋만을 사용하며, 크기가 동일한 모달리티 특화 모델들과 비교해도 동등하거나 더 뛰어난 성능을 보인다. 단일 오미바이어 모델은 ImageNet에서 86.0%, Kinetics에서 84.1%, SUN RGB-D에서 67.1%의 정확도를 기록한다. 미세조정(finetuning)을 거친 후, 다양한 비전 작업에서 기존 연구들을 능가하며 모달리티 간에 일반화 성능을 보인다. 오미바이어의 공유 시각 표현은 모달리티 간 대응 관계에 접근할 필요 없이 자연스럽게 다중 모달리티 인식이 가능하게 한다. 본 연구 결과가 연구자들이 시각 모달리티를 통합적으로 모델링하는 데 동기를 부여하기를 기대한다.