HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Text-zu-Audio-Modellen durch synthetische Bildunterschriften

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

Zusammenfassung

Die Erstellung hochwertiger Trainingsdaten, insbesondere von Untertitelungen, für Text-zu-Audio-Modelle stellt eine offene Herausforderung dar. Obwohl bisherige Methoden \textit{textbasierte Sprachmodelle} (text-only language models) genutzt haben, um die Untertitelungen zu erweitern und zu verbessern, sind diese Methoden in Bezug auf Skalierbarkeit und Kohärenz zwischen Audio und Untertitelungen begrenzt. In dieser Arbeit schlagen wir einen Pipeline für Audio-Untertitelungen vor, der ein \textit{Audiosprachmodell} (audio language model) nutzt, um präzise und vielfältige Untertitelungen für Audio in großem Umfang zu synthetisieren. Wir nutzen diesen Pipeline, um einen Datensatz mit synthetisierten Untertitelungen für AudioSet zu erstellen, den wir \texttt{AF-AudioSet} nennen, und evaluieren dann den Nutzen des Vortrainings von Text-zu-Audio-Modellen auf diesen synthetisierten Untertitelungen. Durch systematische Evaluierungen auf AudioCaps und MusicCaps stellen wir fest, dass die Nutzung unseres Pipelines und der synthetisierten Untertitelungen zu erheblichen Verbesserungen der Audiosynthesequalität führt und einen neuen \textit{Stand der Technik} (\textit{state-of-the-art}) erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung von Text-zu-Audio-Modellen durch synthetische Bildunterschriften | Paper | HyperAI