HAA500: Menschzentriertes atomares Aktionsdatensatz mit kuratierten Videos

Wir präsentieren HAA500, einen manuell annotierten, menschenzentrierten Datensatz atomarer Aktionen für die Aktionserkennung auf 500 Klassen mit über 591.000 markierten Frames. Um Mehrdeutigkeiten bei der Aktionklassifizierung zu minimieren, besteht HAA500 aus einer stark diversifizierten Auswahl feinabgestufter atomarer Aktionen, bei denen nur konsistente Bewegungen dieselbe Bezeichnung erhalten, beispielsweise „Baseball Pitching“ im Gegensatz zu „Free Throw in Basketball“. Damit unterscheidet sich HAA500 deutlich von bestehenden Datensätzen atomarer Aktionen, in denen grob granulierte Aktionen mit allgemeinen Aktionstexten wie „Werfen“ bezeichnet wurden. HAA500 wurde sorgfältig zusammengestellt, um die präzise Bewegung menschlicher Figuren zu erfassen, wobei irrelevanten Bewegungen oder räumlich-zeitlichen Annotationen nahezu vollständig vermieden wurden. Die Vorteile von HAA500 sind vielfältig: 1) menschenzentrierte Aktionen mit einem durchschnittlich hohen Anteil von 69,7 % nachweisbarer Gelenke für relevante menschliche Körperhaltungen; 2) hohe Skalierbarkeit, da die Hinzufügung einer neuen Klasse in weniger als 20 bis 60 Minuten möglich ist; 3) sorgfältig ausgewählte Videos, die ausschließlich die wesentlichen Elemente einer atomaren Aktion erfassen, ohne irrelevante Frames; 4) feinabgestufte Klassen atomarer Aktionen. Unsere umfassenden Experimente, einschließlich der Kreuzdatenvalidierung mit in freier Wildbahn gesammelten Datensätzen, belegen eindeutig die Vorteile der menschenzentrierten und atomaren Charakteristika von HAA500, die bereits eine Baseline-Deep-Learning-Modellleistung verbessern, indem es auf atomare menschliche Körperhaltungen fokussiert. Wir beschreiben detailliert die Statistiken und die Sammlungsmethode des HAA500-Datensatzes und vergleichen ihn quantitativ mit bestehenden Datensätzen zur Aktionserkennung.