2달 전

V2A-Mapper: 시각-청각 변환을 위한 경량화된 솔루션으로 기초 모델 연결

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper: 시각-청각 변환을 위한 경량화된 솔루션으로 기초 모델 연결
초록

기초 모델(Foundation Models, FMs) 위에 인공지능(AI) 시스템을 구축하는 것이 AI 연구의 새로운 패러다임이 되고 있습니다. 이들 모델은 방대한 양의 데이터에서 학습된 표현력과 생성 능력을 쉽게 적응하고 전이하여 추가적인 처음부터의 훈련 없이 다양한 하류 작업에 활용할 수 있습니다. 그러나 오디오 모달리티가 포함될 때 크로스-모달 생성에서 FMs를 활용하는 연구는 아직 부족한 상태입니다. 한편, 시각적 입력으로부터 의미적으로 관련된 소리를 자동으로 생성하는 것은 크로스-모달 생성 연구에서 중요한 문제입니다. 이 비전-투-오디오(Vision-to-Audio, V2A) 생성 문제를 해결하기 위해 기존 방법들은 중등 규모의 데이터셋을 사용하여 복잡한 시스템을 처음부터 설계하고 구축하려는 경향이 있습니다. 본 논문에서는 CLIP, CLAP, 그리고 AudioLDM와 같은 기초 모델들을 활용하여 이 문제에 대한 가벼운 솔루션을 제안합니다.우리는 먼저 시각적 CLIP 모델과 청각적 CLAP 모델의 잠재 공간 사이의 도메인 간극(Domain Gap)을 조사합니다. 그런 다음, 이 도메인 간극을 메우기 위해 CLIP 공간과 CLAP 공간 사이에서 시각적 입력을 번역하는 간단하면서도 효과적인 매핑 메커니즘(V2A-Mapper)을 제안합니다. 번역된 CLAP 임베딩에 조건부로 사전 훈련된 오디오 생성 기초 모델(AudioLDM)을 사용하여 고충실도와 시각적으로 일치하는 소리를 생성합니다. 기존 접근법과 비교할 때, 우리의 방법은 V2A-Mapper의 빠른 훈련만 필요로 합니다. 우리는 또한 V2A-Mapper 선택에 대한 분석과 광범위한 실험을 수행하여, 생성 매핑 메커니즘이 충실도(Fidelity, FD)와 다양성(Variability, FD) 측면에서 우수하며 회귀 매핑 메커니즘이 약간 더 관련성(Relevance, CS) 측면에서 우수함을 보여줍니다.두 개의 V2A 데이터셋에 대한 객관적 및 주관적 평가는 현재 최신 접근법보다 86% 적은 파라미터로 훈련되었음에도 불구하고 FD와 CS 각각 53%와 19% 개선된 결과를 보여주며, 우리 제안 방법의 우월성을 입증합니다.

V2A-Mapper: 시각-청각 변환을 위한 경량화된 솔루션으로 기초 모델 연결 | 최신 연구 논문 | HyperAI초신경