
비디오는 시각적 데이터와 청각적 데이터를 모두 포함하여 이 두 모달이 서로 보완되는 감각적으로 풍부한 경험을 제공합니다. 따라서 비디오는 오디오와 시각 요소 간의 상호작용을 조사하기 위한 귀중한 미디어 유형입니다. 과거의 오디오-시각 모달 연구는 주로 오디오-시각 표현 학습 또는 한 모달에 다른 모달을 조건으로 하는 생성 모델링에 초점을 맞추었으며, 이 두 분야 사이에 단절이 발생했습니다. 아직까지 표현 학습과 모달 생성을 동시에 수행하는 통합 프레임워크는 개발되지 않았습니다. 본 연구에서는 오디오-시각 표현 학습과 시각-오디오 생성 사이의 간극을 메우기 위해 새로운 프레임워크인 Vision to Audio and Beyond (VAB)를 소개합니다.VAB의 핵심 접근 방식은 원시 비디오 프레임과 오디오 데이터를 직접 처리하는 대신 잠재 공간 내에서 표현 학습과 생성 모델링을 수행하는 것입니다. 특히 VAB는 사전 훈련된 오디오 토크나이저와 이미지 인코더를 사용하여 각각 오디오 토큰과 시각적 특성을 얻습니다. 그런 다음 시각 조건 하의 마스킹된 오디오 토큰 예측 전훈련 작업을 수행합니다. 이 훈련 전략은 모델이 맥락 학습과 동시에 비디오-오디오 생성을 수행할 수 있게 합니다. 전훈련 단계 후, VAB는 반복 해독 접근법을 사용하여 시각적 특성에 조건부로 빠르게 오디오 토큰을 생성합니다.VAB가 통합 모델이므로 그 백본은 다양한 오디오-시각 다운스트림 작업에 대해 세부 조정될 수 있습니다. 우리의 실험은 VAB가 고품질의 오디오표현을 비디오로부터 효율적으로 생성하며, 의미론적인 오디오-시각 특성을 획득할 수 있는 능력을 보여주며, 이로 인해 오디오-시각 검색 및 분류에서 경쟁력 있는 결과를 도출하였습니다.