AVA-Aktionserkennungsdatensatz
Datum
vor 3 Jahren
Größe
52.82 MB
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien

AVA, dessen vollständiger Name Atomic Visual Actions lautet, ist ein Videodatensatz mit audiovisuellen Anmerkungen, der dazu dient, Robotern das Verstehen menschlicher Aktivitäten beizubringen. Jeder Videoclip wird von Kommentatoren detailliert kommentiert, wobei die unterschiedlichen Szenen, Aufnahmebedingungen und Ausdrucksformen menschlicher Aktivitäten berücksichtigt werden.
Die Datensatzanmerkungen umfassen:
- Kinetics (AVA-Kinetics): Es ist eine Kreuzung zwischen AVA und Kinetics. Um lokalisierte Aktionsbeschriftungen für eine größere Bandbreite visueller Szenen bereitzustellen, versehen die Autoren Kinetics-700-Videos mit AVA-Aktionsbeschriftungen, wodurch sich die Gesamtzahl der Anmerkungen fast verdoppelt und die Anzahl der Videos bestimmter Kategorien um mehr als das 500-fache erhöht.
- Aktionen (AvA-Actions): Der AVA-Datensatz enthält 80 atomare visuelle Aktionen in 430 15-minütigen Filmclips. Diese Aktionen sind räumlich und zeitlich verortet und generieren 1,62 Millionen Aktionsbezeichnungen, von denen eine große Anzahl häufig verwendet wird.
- Gesprochene Aktivität (AVA ActiveSpeaker, AVA Speech): AVA ActiveSpeaker verknüpft Geräusche und sichtbare Gesichter in AVA v1.0-Videos, was zu 3,65 Millionen Frames führt, die mit ungefähr 39.000 Gesichtern beschriftet sind. AVA Speech kommentiert die Sprachaktivität in AVA v1.0-Videos umfassend und kommentiert explizit drei Hintergrundgeräuschbedingungen, was zu ungefähr 4.600 kommentierten Clips mit einer Laufzeit von 45 Stunden führt.
AVA.torrent
Seeding 1Herunterladen 1Abgeschlossen 496Gesamtdownloads 525