HyperAI

AudioSetCaps Audio-Untertitel-Datensatz

Datum

vor 6 Monaten

Größe

120.7 MB

Organisation

Nanyang Technologische Universität
Universität von Surrey

Veröffentlichungs-URL

github.com

Lizenz

CC BY 4.0

Der Datensatz wurde 2024 von Forschern der Northwestern Polytechnical University, der Xi'an Lianfeng Acoustic Technology Co., Ltd., der Nanyang Technological University, der University of Surrey und dem Institute of Acoustics der Chinesischen Akademie der Wissenschaften veröffentlicht.AudioSetCaps: Generierung erweiterter Datensätze für Audiountertitel mithilfe großer Audiosprachenmodelle", wurde von NeurIPS 24 akzeptiert.

AudioSetCaps ist ein Audio-Untertitel-Datensatz mit 6.117.099 10-Sekunden-Audiodateien. Jede Audiodatei wird von einem beschreibenden Titel und 3 Frage-und-Antwort-Paaren als Metadaten begleitet, um den endgültigen Titel zu generieren (insgesamt 18.414.789 Frage-und-Antwort-Datenpaare).

Es wird mithilfe einer automatisierten Generierungspipeline großer Audio- und Sprachmodelle erstellt, die Daten aus drei Audiodatensätzen verwendet: AudioSet, YouTube-8M und VGGSound.

AudioSetCaps.torrent
Seeding 1Herunterladen 1Abgeschlossen 52Gesamtdownloads 46
  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB