AudioSetCaps Audio-Untertitel-Datensatz
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien
Der Datensatz wurde 2024 von Forschern der Northwestern Polytechnical University, der Xi'an Lianfeng Acoustic Technology Co., Ltd., der Nanyang Technological University, der University of Surrey und dem Institute of Acoustics der Chinesischen Akademie der Wissenschaften veröffentlicht.AudioSetCaps: Generierung erweiterter Datensätze für Audiountertitel mithilfe großer Audiosprachenmodelle", wurde von NeurIPS 24 akzeptiert.
AudioSetCaps ist ein Audio-Untertitel-Datensatz mit 6.117.099 10-Sekunden-Audiodateien. Jede Audiodatei wird von einem beschreibenden Titel und 3 Frage-und-Antwort-Paaren als Metadaten begleitet, um den endgültigen Titel zu generieren (insgesamt 18.414.789 Frage-und-Antwort-Datenpaare).
Es wird mithilfe einer automatisierten Generierungspipeline großer Audio- und Sprachmodelle erstellt, die Daten aus drei Audiodatensätzen verwendet: AudioSet, YouTube-8M und VGGSound.