2달 전
ImageBind: 하나의 임베딩 공간으로 모든 것을 연결하다
Rohit Girdhar; Alaaeldin El-Nouby; Zhuang Liu; Mannat Singh; Kalyan Vasudev Alwala; Armand Joulin; Ishan Misra

초록
우리는 ImageBind를 제시합니다. 이는 이미지, 텍스트, 오디오, 깊이, 열화상, 그리고 IMU 데이터 등 여섯 가지 다른 모달리티 간의 공동 임베딩을 학습하는 방법입니다. 우리는 이러한 공동 임베딩을 학습하기 위해 모든 쌍 데이터 조합이 필요하지 않으며, 이미지 쌍 데이터만으로도 모달리티들을 연결할 수 있음을 보여줍니다. ImageBind는 최근 대규모 시각-언어 모델을 활용할 수 있으며, 이미지와의 자연스러운 짝짓기만으로 새로운 모달리티에 대한 제로샷(zero-shot) 기능을 확장할 수 있습니다. 이로 인해 ImageBind는 크로스-모달 검색, 모달리티의 산술적 조합, 크로스-모달 감지 및 생성 등의 새로운 응용 프로그램을 즉시 지원하게 됩니다. 공동 임베딩의 성능은 이미지 인코더의 강도에 따라 향상되며, 우리는 여러 모달리티에서 제로샷 인식 작업에서 새로운 최고 성능(SOTA)을 달성하여 전문적인 지도학습 모델보다 우수한 결과를 보여주었습니다. 마지막으로, 우리는 소수 샷(few-shot) 인식 작업에서도 이전 연구를 능가하는 강력한 결과를 보여주었으며, ImageBind가 시각적 및 비시각적 작업을 위한 시각 모델 평가의 새로운 방법임을 입증하였습니다.