AudioCaps: Generierung von Captions für Audiodaten aus natürlichen Umgebungen

Wir untersuchen das Problem der Audio-Kommentierung: die Generierung natürlicher Sprachbeschreibungen für beliebige Arten von Audioinhalten aus der realen Welt, ein Thema, das in vorherigen Forschungsarbeiten erstaunlicherweise kaum untersucht wurde. Wir tragen einen großskaligen Datensatz mit 46.000 Audioschnitten mit menschlich verfassten Textpaaren bei, die über eine Crowdsourcing-Plattform auf Basis des AudioSet-Datensatzes gesammelt wurden. Unsere umfassenden empirischen Studien zeigen nicht nur, dass unsere gesammelten Beschreibungen tatsächlich der Audioeingabe treu entsprechen, sondern offenbaren auch, welche Formen von Audio-Repräsentationen und Captioning-Modelle für die Audio-Kommentierung wirksam sind. Aus umfangreichen Experimenten leiten wir zudem zwei neue Komponenten ab, die die Leistung der Audio-Kommentierung verbessern: den top-down mehrskaligen Encoder und die ausgerichtete semantische Aufmerksamkeit.