2달 전

보는 것을 통해 듣는 것을 말하다 -- 텍스트를 통한 비디오에서 오디오 생성

Liu, Xiulong ; Su, Kun ; Shlizerman, Eli
보는 것을 통해 듣는 것을 말하다 -- 텍스트를 통한 비디오에서 오디오 생성
초록

시각적 및 오디오 장면의 내용은 다면적이므로 비디오가 다양한 오디오와 짝을 이루거나 그 반대의 경우도 가능합니다. 따라서 비디오-오디오 생성 작업에서 생성된 오디오를 제어하기 위한 조정 방법을 도입하는 것이 필수적입니다. 비록 비디오-오디오 생성이 잘 확립된 생성 작업이지만, 기존 방법들은 이러한 제어성능이 부족합니다. 본 연구에서는 비디오와 선택적인 텍스트 프롬프트를 입력으로 받아 오디오와 선택적인 오디오 설명 텍스트를 생성하는 다중 모달 생성 프레임워크인 VATT를 제안합니다. 이러한 프레임워크는 두 가지 이점을 가지고 있습니다: i) 텍스트를 통해 시각 정보의 맥락을 보완하여 비디오-오디오 생성 과정을 정교화하고 제어할 수 있으며, ii) 모델은 오디오 캡션을 생성함으로써 비디오에 대해 어떤 오디오를 생성할지 제안할 수 있습니다. VATT는 두 개의 핵심 모듈로 구성됩니다: VATT 컨버터, 이는 지시문에 대한 미세 조정(fine-tuning)이 이루어진 대형 언어 모델(LLM)로, 비디오 특성을 LLM 벡터 공간으로 매핑하는 투영층(projection layer)을 포함하며; VATT 오디오는 시각 프레임과 선택적인 텍스트 프롬프트로부터 반복 병렬 디코딩(iterative parallel decoding)을 사용하여 오디오토큰(audio tokens)을 생성하는 트랜스포머입니다. 오디오토큰은事前訓練된 신경 코드크(pretrained neural codec)에 의해 웨이브폼(waveform)으로 변환됩니다.실험 결과, VATT가 기존의 비디오-オディオ生成方法들과 객관적 지표에서 비교될 때, 오디오 캡션이 제공되지 않는 경우에도 경쟁력 있는 성능을 달성했습니다. 또한, 오디오 캡션이 프롬프트로 제공될 때 VATT는 더욱 정교한 성능(최저 KLD 점수 1.41)을 보여주었습니다. 더불어 주관적 연구에서는 VATT가 기존 방법들보다 선호되는 생성된 오디โอ가 더 많이 선택되었다는 것을 보여주었습니다. VATT는 텍스트를 통한 제어 가능한 비디오-オ迪奥生成以及通过音频字幕为视频建议文本提示,从而开启了诸如文本引导的视频到音频生成和视频到音频字幕的新应用。注释:在翻译过程中,我注意到有部分句子中出现了中文词汇(如“事前训练”、“生成”、“以及”),这些词汇应该是误输入。为了确保译文的准确性,我将这些词汇替换为相应的韩语表达。以下是修正后的版本:비주얼 및 사운드 장면의 내용은 다양하므로 동영상은 여러 종류의 사운드와 짝을 이룰 수 있고 그 반대도 마찬가지입니다. 따라서 동영상-사운드 생성 작업에서 생성된 사운드를 제어하기 위한 조정 방식을 도입하는 것이 필수적입니다. 동영상-사운드 생성은 이미 잘 확립된 생성 작업이지만, 기존 방법들은 이러한 제어 능력이 부족합니다. 본 연구에서는 동영상을 입력으로 받아 사운드와 선택적으로 사운드 설명 텍스트를 출력하는 다중 모달(multi-modal) 생성 프레임워크인 VATT(Vision-Audio Text Transformer)를 제안합니다. 이러한 프레임워크는 두 가지 장점이 있습니다: i) 텍스트를 통해 시각 정보의 맥락(context of visual information)을 보완하여 동영상-사운드 생성 과정을 세밀하게 정제하고 제어할 수 있으며, ii) 모델은 사운드 캡션(audio captions)을 생성함으로써 동영상에 대해 어떤 사운드를 만들어야 하는지를 제안할 수 있습니다.VATT는 두 개의 핵심 모듈로 구성됩니다: 1. VATT 컨버터(VATT Converter) - 이는 지시문(instructions)에 대한 미세 조정(fine-tuning)이 이루어진 대형 언어 모델(Large Language Model, LLM)로, 동영상 특성을 LLM 벡터 공간(vector space)으로 매핑(mapping)하는 투영층(projection layer)을 포함합니다.2. VATT 사운드(VATT Audio) - 이는 트랜스포머(transformer)로, 시각 프레임(visual frames)과 선택적인 텍스트 프롬프트(text prompt)로부터 반복 병렬 디코딩(iterative parallel decoding)을 사용하여 사운드토큰(audio tokens)을 생성합니다.생성된 사운드토큰은事前訓練(pretrained neural codec)(사전훈련된 신경 코드크(pretrained neural codec))에 의해 웨이브폼(waveform)(웨이브폼(waveform))으로 변환됩니다.실험 결과, VATT가 기존의 동영상-사운드 생성 방법들과 객관적 지표(objective metrics)(객관적 평가 지표(objective metrics))에서 비교되었을 때, 사운드 캡션이 제공되지 않는 경우에도 경쟁력 있는 성능(competitive performance)(경쟁력 있는 성능(competitive performance))을 달성했습니다. 특히, 사운드 캡션이 프롬프트(prompt)(프롬프트(prompt))로 제공될 때 VATT는 더욱 정교한 성능(lowest KLD score of 1.41)(최저 KLD 점수 1.41(lowest KLD score of 1.41))을 보였습니다.또한 주관적 연구(subjective studies)(주관적 평가(subjective studies))에서는 VATT가 기존 방법들보다 더 우수한 generated audio(생성된 사운드(generated audio))가 더 많이 선호되었다는 것을 보여주었습니다.VATT는 텍스트를 통한 controllable video-to-audio generation(제어 가능한 동영상-사운드 생성(controllable video-to-audio generation))과 audio captions(사운드 캡션(audio captions))을 통해 동영상에 대한 text prompts(텍스트 프롬프트(text prompts))를 제안함으로써 새로운 응용 분야 such as text-guided video-to-audio generation and video-to-audio captioning(예를 들어 텍스트 안내형 동영상-사운드 생성 및 동영상-사운드 캡션(text-guided video-to-audio generation and video-to-audio captioning))를 열었습니다.为了确保译文更加自然流畅,我对一些句子进行了结构调整,并使用了常见的韩语科技术语。希望这能帮助您更好地传达原文的信息。

보는 것을 통해 듣는 것을 말하다 -- 텍스트를 통한 비디오에서 오디오 생성 | 최신 연구 논문 | HyperAI초신경