Command Palette
Search for a command to run...
AudioSetCaps Audio-Untertitel-Datensatz
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Lizenz
CC BY 4.0
Der Datensatz wurde 2024 von Forschern der Northwestern Polytechnical University, der Xi'an Lianfeng Acoustic Technology Co., Ltd., der Nanyang Technological University, der University of Surrey und dem Institute of Acoustics der Chinesischen Akademie der Wissenschaften veröffentlicht.AudioSetCaps: Generierung erweiterter Datensätze für Audiountertitel mithilfe großer Audiosprachenmodelle", wurde von NeurIPS 24 akzeptiert.
AudioSetCaps ist ein Audio-Untertitel-Datensatz mit 6.117.099 10-Sekunden-Audiodateien. Jede Audiodatei wird von einem beschreibenden Titel und 3 Frage-und-Antwort-Paaren als Metadaten begleitet, um den endgültigen Titel zu generieren (insgesamt 18.414.789 Frage-und-Antwort-Datenpaare).
Es wird mithilfe einer automatisierten Generierungspipeline großer Audio- und Sprachmodelle erstellt, die Daten aus drei Audiodatensätzen verwendet: AudioSet, YouTube-8M und VGGSound.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.