Violinvideo- Und Sprachinferenz-Datensatz
Datum
vor 3 Jahren
Veröffentlichungs-URL
Lizenz
其他
Kategorien

Violin steht für VIdeO-and-Language INference, was für multimodale Verständnisaufgaben von Videos und Texten verwendet werden kann.
Der Datensatz enthält 95.322 Video-Hypothesen-Paare aus 15.887 Videoclips, die mehr als 582 Stunden Video abdecken. Diese Videoclips enthalten reichhaltige Inhalte mit unterschiedlicher Zeitdynamik, Ereignisänderungen und zwischenmenschlichen Interaktionen. Die Daten wurden aus zwei Quellen gesammelt: (i) beliebten Fernsehsendungen und (ii) Filmclips von YouTube-Kanälen.