vor 2 Monaten

Lesen, Schauen und Schreien! Klanggenerierung aus Text und Video

Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung

Abstract

Trotz des beeindruckenden Fortschritts bei multimodalen Generativmodellen leidet die Video-zu-Audio-Generierung noch an eingeschränkter Leistung und begrenzt der Flexibilität, die Schallsynthese für bestimmte Objekte innerhalb der Szene zu priorisieren. Umgekehrt erzeugen Text-zu-Audio-Generierungsverfahren hochwertige Audioausgaben, stellen jedoch Herausforderungen dar, um eine umfassende Szenendarstellung und zeitabhängige Kontrolle sicherzustellen. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Video-und-Text-zu-Audio-Generierungs METHODE vor, genannt \ours, bei der das Video als bedingte Kontrolle für ein Text-zu-Audio-Generierungsmodell dient. Insbesondere schätzt unsere Methode die strukturelle Information des Sounds (nämlich Energie) aus dem Video ab, während sie wichtige Inhaltsinformationen von einer Benutzeranfrage erhält. Wir verwenden ein gut performendes Text-zu-Audio-Modell zur Konsolidierung der Videokontrolle, was die Trainierung multimodaler Diffusionsmodelle mit massiven dreifach gekoppelten (Audio-Video-Text) Daten viel effizienter gestaltet. Zudem ermöglicht die Trennung der generativen Komponenten des Audios ein flexibleres System, das Benutzern erlaubt, nach ihren Vorlieben frei die Energie, die Umgebung und die primäre Soundquelle anzupassen. Experimentelle Ergebnisse zeigen, dass unsere Methode in Bezug auf Qualität, Steuerbarkeit und Trainierungseffizienz überlegen ist. Der Quellcode und eine Demonstration sind unter https://naver-ai.github.io/rewas verfügbar.请注意，"\ours" 是一个 LaTeX 命令，用于在文档中引用作者提出的方法。在实际的德语文档中，您可能需要根据上下文将其替换为具体的方法名称或保留其原始形式以供后续处理。如果您有具体的方法名称，请告知我以便进行相应的调整。