7일 전

VALOR: 비전-오디오-언어 옴니-퍼셉션 프리트레이닝 모델 및 데이터셋

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang
VALOR: 비전-오디오-언어 옴니-퍼셉션 프리트레이닝 모델 및 데이터셋
초록

본 논문에서는 다중 모달 이해 및 생성을 위한 비전-오디오-언어 종합 인식 사전학습 모델(Vision-Audio-Language Omni-peRception pretraining model, VALOR)을 제안한다. 기존에 널리 연구되어온 비전-언어 사전학습 모델들과 달리, VALOR는 비전, 오디오, 언어 간의 관계를 엔드 투 엔드 방식으로 공동으로 모델링한다. 모델은 단일 모달 표현을 위한 세 개의 별도 인코더와 다중 모달 조건부 텍스트 생성을 위한 디코더로 구성되어 있다. VALOR 모델의 사전학습을 위해 두 가지 사전 과제를 설계하였으며, 각각 다중 모달 그룹화 정렬(Multimodal Grouping Alignment, MGA)과 다중 모달 그룹화 캡션 생성(Multimodal Grouping Captioning, MGC)이다. MGA는 비전, 언어, 오디오를 동일한 공통 공간으로 투영함으로써, 비전-언어, 오디오-언어, 오디오-비전-언어 간의 정렬을 동시에 구축한다. MGC는 비전, 오디오, 또는 둘 다를 조건으로 하여 텍스트 토큰을 생성하는 방식을 학습한다. 비전-오디오-언어 사전학습 연구를 촉진하기 위해, 인간이 주석을 달아준 오디오-비전 캡션을 포함한 100만 개의 음성 가능한 영상으로 구성된 대규모 고품질 삼중 모달 데이터셋인 VALOR-1M을 구축하였다. 광범위한 실험 결과, VALOR는 강력한 다중 모달 상관관계를 학습할 수 있으며, 다양한 하류 작업(예: 검색, 캡션 생성, 질의 응답)에 대해 다양한 입력 모달(예: 비전-언어, 오디오-언어, 오디오-비전-언어)에 대해 일반화 가능한 성능을 보였다. VALOR는 여러 공개된 다중 모달 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였다. 코드 및 데이터는 프로젝트 페이지(https://casia-iva-group.github.io/projects/VALOR)에서 확인할 수 있다.