HyperAIHyperAI

Command Palette

Search for a command to run...

AudioCaps: Generierung von Captions für Audiodaten aus natürlichen Umgebungen

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Zusammenfassung

Wir untersuchen das Problem der Audio-Kommentierung: die Generierung natürlicher Sprachbeschreibungen für beliebige Arten von Audioinhalten aus der realen Welt, ein Thema, das in vorherigen Forschungsarbeiten erstaunlicherweise kaum untersucht wurde. Wir tragen einen großskaligen Datensatz mit 46.000 Audioschnitten mit menschlich verfassten Textpaaren bei, die über eine Crowdsourcing-Plattform auf Basis des AudioSet-Datensatzes gesammelt wurden. Unsere umfassenden empirischen Studien zeigen nicht nur, dass unsere gesammelten Beschreibungen tatsächlich der Audioeingabe treu entsprechen, sondern offenbaren auch, welche Formen von Audio-Repräsentationen und Captioning-Modelle für die Audio-Kommentierung wirksam sind. Aus umfangreichen Experimenten leiten wir zudem zwei neue Komponenten ab, die die Leistung der Audio-Kommentierung verbessern: den top-down mehrskaligen Encoder und die ausgerichtete semantische Aufmerksamkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp