VidSitu-Datensatz Zum Videoverständnis
Datum
vor 3 Jahren
Veröffentlichungs-URL
Lizenz
其他
Kategorien

VidSitu ist ein Datensatz für die Aufgabe der semantischen Rollenkennzeichnung in Videos (VidSRL). VidSitu ist eine umfangreiche Datenquelle zum Videoverständnis, die 29.000 10-Sekunden-Filmclips umfasst, die mit Verben und semantischen Rollen in 2-Sekunden-Einheiten annotiert sind. In jedem Ereignis eines Fragments wird üblicherweise auf Entitäten verwiesen, und Ereignisse sind durch Ereignis-Ereignis-Beziehungen miteinander verbunden.
Die Clips in VidSitu stammen aus einer großen Filmsammlung (3K) und werden so ausgewählt, dass sie komplex (4,2 einzigartige Verben in einem einzigen Video) und vielfältig (200 Verben mit jeweils mehr als 100 Token) sind.