HyperAI

Violinvideo- Und Sprachinferenz-Datensatz

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

github.com

Lizenz

其他

Kategorien

Download-Hilfe
特色图像

Violin steht für VIdeO-and-Language INference, was für multimodale Verständnisaufgaben von Videos und Texten verwendet werden kann.

Der Datensatz enthält 95.322 Video-Hypothesen-Paare aus 15.887 Videoclips, die mehr als 582 Stunden Video abdecken. Diese Videoclips enthalten reichhaltige Inhalte mit unterschiedlicher Zeitdynamik, Ereignisänderungen und zwischenmenschlichen Interaktionen. Die Daten wurden aus zwei Quellen gesammelt: (i) beliebten Fernsehsendungen und (ii) Filmclips von YouTube-Kanälen.