Command Palette
Search for a command to run...
Violinvideo- Und Sprachinferenz-Datensatz
Date
Publish URL
Paper URL
License
Other

Violin steht für VIdeO-and-Language INference, was für multimodale Verständnisaufgaben von Videos und Texten verwendet werden kann.
Der Datensatz enthält 95.322 Video-Hypothesen-Paare aus 15.887 Videoclips, die mehr als 582 Stunden Video abdecken. Diese Videoclips enthalten reichhaltige Inhalte mit unterschiedlicher Zeitdynamik, Ereignisänderungen und zwischenmenschlichen Interaktionen. Die Daten wurden aus zwei Quellen gesammelt: (i) beliebten Fernsehsendungen und (ii) Filmclips von YouTube-Kanälen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.