13일 전

오미보어: 다양한 시각적 모달리티를 위한 단일 모델

Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra
오미보어: 다양한 시각적 모달리티를 위한 단일 모델
초록

이전 연구들은 이미지, 영상, 3D 데이터 등의 다양한 시각 모달리티를 별도로 분석하며 각각에 맞는 독립적인 아키텍처를 개발해왔다. 반면 본 논문에서는 동일한 모델 파라미터를 사용하여 이미지, 영상, 단일 시점 3D 데이터 모두를 효과적으로 분류할 수 있는 단일 모델을 제안한다. 우리의 '오미바이어(Omnivore)' 모델은 트랜스포머 기반 아키텍처의 유연성을 활용하며, 다양한 모달리티의 분류 작업을 함께 학습한다. 오미바이어는 학습이 간단하며, 표준적인 오프더쉐lf(Off-the-shelf) 데이터셋만을 사용하며, 크기가 동일한 모달리티 특화 모델들과 비교해도 동등하거나 더 뛰어난 성능을 보인다. 단일 오미바이어 모델은 ImageNet에서 86.0%, Kinetics에서 84.1%, SUN RGB-D에서 67.1%의 정확도를 기록한다. 미세조정(finetuning)을 거친 후, 다양한 비전 작업에서 기존 연구들을 능가하며 모달리티 간에 일반화 성능을 보인다. 오미바이어의 공유 시각 표현은 모달리티 간 대응 관계에 접근할 필요 없이 자연스럽게 다중 모달리티 인식이 가능하게 한다. 본 연구 결과가 연구자들이 시각 모달리티를 통합적으로 모델링하는 데 동기를 부여하기를 기대한다.