ONE-PEACE: 무한한 모달리티를 향한 하나의 일반 표현 모델 탐구

본 연구에서는 무한한 모달리티에 대응하는 일반화된 표현 모델을 구축하기 위한 확장 가능한 방법을 탐구한다. 우리는 40억 파라미터를 가진 매우 확장성이 뛰어난 모델인 ONE-PEACE를 공개한다. 이 모델은 시각, 음성, 언어 모달리티 간의 표현을 원활하게 정렬하고 통합할 수 있다. ONE-PEACE의 아키텍처는 모달리티 어댑터, 공유된 자체주의(self-attention) 레이어, 모달리티 FFN(Fully Connected Network)으로 구성되어 있으며, 새로운 모달리티를 추가하기 위해 어댑터와 FFN을 간단히 추가할 수 있고, 동시에 자체주의 레이어를 통해 다중 모달리티 통합을 가능하게 한다. ONE-PEACE를 사전학습하기 위해, 모달리티에 종속되지 않는 두 가지 사전학습 과제인 다중 모달리티 정렬 대비(cross-modal aligning contrast)와 내부 모달리티 노이즈 제거 대비(intra-modal denoising contrast)를 개발하였다. 이 두 과제는 서로 다른 모달리티 간의 의미 공간을 정렬하면서 동시에 각 모달리티 내의 세부적인 정보를 동시에 포착할 수 있다. 확장 친화적인 아키텍처와 사전학습 과제를 통해 ONE-PEACE는 무한한 모달리티로 확장될 가능성을 지닌다. 시각 또는 언어 사전학습 모델을 초기화에 사용하지 않고도, ONE-PEACE는 이미지 분류(ImageNet), 세분화(semantic segmentation, ADE20K), 음성-텍스트 검색(AudioCaps, Clotho), 음성 분류(ESC-50, FSD50K, VGGSound), 음성 질의 응답(AVQA), 이미지-텍스트 검색(MSCOCO, Flickr30K), 시각적 지시어 기반 참조(visual grounding, RefCOCO/+/g) 등 다양한 단모달 및 다모달 작업에서 최상의 성능을 달성하였다. 코드는 https://github.com/OFA-Sys/ONE-PEACE 에서 확인할 수 있다.