HyperAIHyperAI
vor 2 Monaten

HACS: Datensatz von menschlichen Aktionsclips und -segmenten für die Erkennung und zeitliche Lokalisierung

Hang Zhao; Antonio Torralba; Lorenzo Torresani; Zhicheng Yan
HACS: Datensatz von menschlichen Aktionsclips und -segmenten für die Erkennung und zeitliche Lokalisierung
Abstract

Dieses Papier stellt einen neuen, groß angelegten Datensatz vor, der für die Erkennung und zeitliche Lokalisierung menschlicher Aktionen aus Web-Videos gesammelt wurde. Wir bezeichnen ihn als HACS (Human Action Clips and Segments). Wir nutzen sowohl den Konsens als auch die Diskrepanz unter visuellen Klassifikatoren, um automatisch potenzielle kurze Clips aus nicht beschrifteten Videos zu extrahieren, die anschließend von menschlichen Annotatoren validiert werden. Der resultierende Datensatz wird als HACS Clips bezeichnet. Durch einen separaten Prozess sammeln wir zudem Annotationen, die die Grenzen von Aktionssegmenten definieren. Dieser resultierende Datensatz wird als HACS Segments bezeichnet. Insgesamt besteht HACS Clips aus 1,5 Millionen annotierten Clips, die aus 504.000 ungeschnittenen Videos entnommen wurden, während HACS Segments 139.000 dicht annotierte Aktionssegmenten enthält, die in 50.000 ungeschnittenen Videos über 200 Aktionenkategorien verteilt sind. HACS Clips enthält mehr beschriftete Beispiele als jeder andere existierende Videobenchmark. Dies macht unseren Datensatz zu einem groß angelegten Benchmark für Aktionserkennung und einer hervorragenden Quelle für das Lernen räumlich-zeitlicher Merkmale. In unseren Transferlearning-Experimenten auf drei Ziel-Datensätzen übertrifft HACS Clips Kinetics-600, Moments-In-Time und Sports1M als Vortrainingsquelle. Anhand von HACS Segments bewerten wir zudem Methoden zur Generierung von Aktionsvorschlägen und zur Lokalisierung von Aktionen und heben dabei die neuen Herausforderungen hervor, die durch unsere dichten zeitlichen Annotationen gestellt werden.

HACS: Datensatz von menschlichen Aktionsclips und -segmenten für die Erkennung und zeitliche Lokalisierung | Neueste Forschungsarbeiten | HyperAI