HyperAIHyperAI
vor 2 Monaten

V2A-Mapper: Eine leichte Lösung für die Vision-to-Audio-Generierung durch die Verbindung von Grundmodellen

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper: Eine leichte Lösung für die Vision-to-Audio-Generierung durch
die Verbindung von Grundmodellen
Abstract

Das Bau von künstlichen Intelligenz-Systemen (KI-Systemen) auf der Grundlage einer Reihe von Fundamentmodellen (FMs) wird zu einem neuen Paradigma in der KI-Forschung. Ihre repräsentativen und generativen Fähigkeiten, die aus großen Datenmengen gelernt wurden, können leicht angepasst und auf eine Vielzahl von nachgelagerten Aufgaben übertragen werden, ohne dass eine zusätzliche Trainierung von Grund auf erforderlich ist. Allerdings bleibt die Nutzung von FMs in der multimodalen Generierung unterforscht, insbesondere wenn die Audiomodalität beteiligt ist. Andererseits ist die automatische Erzeugung semantisch relevanter Klänge aus visueller Eingabe ein wichtiges Problem in Studien zur multimodalen Generierung. Um dieses Problem der Vision-to-Audio-(V2A)-Generierung zu lösen, neigen bestehende Methoden dazu, komplexe Systeme von Grund auf mit moderat großen Datensätzen zu entwerfen und aufzubauen. In dieser Arbeit schlagen wir eine leichte Lösung für dieses Problem vor, indem wir Fundamentmodelle nutzen, speziell CLIP, CLAP und AudioLDM. Wir untersuchen zunächst den Domänenunterschied zwischen dem latenten Raum des visuellen CLIP-Modells und des auditiven CLAP-Modells. Dann schlagen wir einen einfachen aber effektiven Übersetzermechanismus (V2A-Mapper) vor, um diesen Domänenunterschied zu überbrücken, indem wir die visuelle Eingabe zwischen den Räumen von CLIP und CLAP übersetzen. Basierend auf der übersetzten CLAP-Einbettung wird das vortrainierte auditive generative FM AudioLDM verwendet, um hochauflösende und visuell angepasste Klänge zu erzeugen. Im Vergleich zu früheren Ansätzen erfordert unsere Methode nur eine kurze Trainierung des V2A-Mappers. Wir analysieren ferner und führen umfangreiche Experimente zur Auswahl des V2A-Mappers durch und zeigen, dass ein generativer Mapper besser in Bezug auf Auflösung und Variabilität (FD) ist, während ein regressiver Mapper leicht besser in Bezug auf Relevanz (CS) abschneidet. Sowohl objektive als auch subjektive Bewertungen an zwei V2A-Datensätzen belegen die Überlegenheit unserer vorgeschlagenen Methode im Vergleich zu aktuellen state-of-the-art-Ansätzen – mit 86 % weniger Parametern trainiert, erreicht sie jedoch Verbesserungen um 53 % und 19 % in FD und CS.请注意,这里有一些细节需要澄清:1. "Fundamentmodelle" 是“基础模型”的通用译法。2. "Domain gap" 翻译为 "Domänenunterschied",这是在多模态研究中常用的术语。3. "Latent space" 翻译为 "latenter Raum",这也是一个常见的术语。4. "Vision-to-Audio (V2A)" 直接翻译为 "Vision-to-Audio (V2A)",以保持专业性和一致性。5. "Mapper mechanism" 翻译为 "Übersetzermechanismus",这是一个较为贴切的翻译。6. "High-fidelity" 翻译为 "hochauflösende",虽然更准确的翻译可能是 "hoher Treuegrad",但在音频生成领域,“高保真”通常指的是音质的清晰度和分辨率。7. "Fidelity and variability (FD)" 和 "Relevance (CS)" 这些缩写在德语文献中可能不太常见,因此保留了英文缩写并在括号内标注了原文。希望这些翻译和注释对您有所帮助。如果您有任何进一步的问题或需要调整的地方,请随时告知。

V2A-Mapper: Eine leichte Lösung für die Vision-to-Audio-Generierung durch die Verbindung von Grundmodellen | Neueste Forschungsarbeiten | HyperAI