AVA: Ein Video-Datensatz von räumlich-zeitlich lokalisierten atomaren visuellen Aktionen

Dieses Papier stellt einen Video-Datensatz von räumlich-zeitlich lokalisierten atomaren visuellen Aktionen (AVA) vor. Der AVA-Datensatz kennzeichnet dicht 80 atomare visuelle Aktionen in 430 Videoausschnitten à 15 Minuten, wobei die Aktionen im Raum und in der Zeit lokalisiert sind, was zu insgesamt 1,58 Millionen Aktionskennzeichnungen führt, bei denen häufig mehrere Kennzeichnungen pro Person auftreten. Die wesentlichen Merkmale unseres Datensatzes sind: (1) die Definition von atomaren visuellen Aktionen anstelle zusammengesetzter Aktionen; (2) präzise räumlich-zeitliche Annotationen mit möglicherweise mehreren Annotationen für jede Person; (3) umfassende Annotation dieser atomaren Aktionen über 15-Minuten-Videos; (4) zeitliche Verknüpfung der Personen über aufeinanderfolgende Segmente hinweg; und (5) die Nutzung von Filmen zur Sammlung einer vielfältigen Menge an Aktionsdarstellungen. Dies unterscheidet sich von bestehenden Datensätzen für die räumlich-zeitliche Aktionserkennung, die in der Regel spärliche Annotationen für zusammengesetzte Aktionen in kurzen Videoclips bereitstellen. Wir werden den Datensatz öffentlich freigeben.Der AVA-Datensatz, dank seiner realistischen Szene- und Aktionskomplexität, zeigt das intrinsische Schwierigkeitsgrad der Aktionserkennung auf. Um dies zu bewerten, präsentieren wir einen neuen Ansatz zur Aktionslokalisation, der auf den aktuellen Stand der Technik basiert und eine bessere Leistung in den Kategorien JHMDB und UCF101-24 demonstriert. Während wir mit diesem Ansatz einen neuen Stand der Technik auf bestehenden Datensätzen setzen, liegen die Gesamtergebnisse auf dem AVA-Datensatz bei nur 15,6 % mAP, was die Notwendigkeit unterstreicht, neue Ansätze zur Videoverarbeitung zu entwickeln.