Verbesserung von Text-zu-Audio-Modellen durch synthetische Bildunterschriften

Die Erstellung hochwertiger Trainingsdaten, insbesondere von Untertitelungen, für Text-zu-Audio-Modelle stellt eine offene Herausforderung dar. Obwohl bisherige Methoden \textit{textbasierte Sprachmodelle} (text-only language models) genutzt haben, um die Untertitelungen zu erweitern und zu verbessern, sind diese Methoden in Bezug auf Skalierbarkeit und Kohärenz zwischen Audio und Untertitelungen begrenzt. In dieser Arbeit schlagen wir einen Pipeline für Audio-Untertitelungen vor, der ein \textit{Audiosprachmodell} (audio language model) nutzt, um präzise und vielfältige Untertitelungen für Audio in großem Umfang zu synthetisieren. Wir nutzen diesen Pipeline, um einen Datensatz mit synthetisierten Untertitelungen für AudioSet zu erstellen, den wir \texttt{AF-AudioSet} nennen, und evaluieren dann den Nutzen des Vortrainings von Text-zu-Audio-Modellen auf diesen synthetisierten Untertitelungen. Durch systematische Evaluierungen auf AudioCaps und MusicCaps stellen wir fest, dass die Nutzung unseres Pipelines und der synthetisierten Untertitelungen zu erheblichen Verbesserungen der Audiosynthesequalität führt und einen neuen \textit{Stand der Technik} (\textit{state-of-the-art}) erreicht.