Großmaßstäbliches holistisches Video-Verständnis

Die Videoerkennung wurde in den letzten Jahren durch Benchmarks mit reichhaltigen Annotationen weiterentwickelt. Dennoch bleibt die Forschung hauptsächlich auf die Erkennung von menschlichen Aktionen oder Sportarten beschränkt – ein hochspezifisches Verständnis von Videos, das einen erheblichen Abstand zur Beschreibung des gesamten Inhalts eines Videos lässt. Wir schließen diese Lücke, indem wir den groß angelegten "Holistic Video Understanding Dataset" (HVU) vorstellen. HVU ist hierarchisch in einer semantischen Taxonomie organisiert, die sich auf die mehrfache und mehrfach gestellte Videoverarbeitung als umfassendes Problem konzentriert, das die Erkennung mehrerer semantischer Aspekte in der dynamischen Szene umfasst. HVU enthält insgesamt etwa 572.000 Videos mit 9 Millionen Annotationen für Trainings-, Validierungs- und Testdatensätze, die über 3142 Labels verteilt sind. HVU umfasst semantische Aspekte, die auf Kategorien von Szenen, Objekten, Aktionen, Ereignissen, Attributen und Konzepten definiert sind und somit natürliche Realwelt-Szenarien abbildet.Wir demonstrieren die Generalisierungsfähigkeit des HVU anhand dreier anspruchsvoller Aufgaben: 1.) Video-Klassifikation, 2.) Video-Beschreibung und 3.) Video-Clustering-Aufgaben. Insbesondere bei der Video-Klassifikation führen wir eine neue räumlich-zeitliche Deep Neural Network Architektur ein, genannt "Holistic Appearance and Temporal Network" (HATNet), die darauf abzielt, 2D- und 3D-Architekturen in einer einzigen zu fusionieren, indem sie Zwischendarstellungen von Erscheinungsbildern und zeitlichen Hinweisen kombiniert. HATNet konzentriert sich auf das Problem des Multi-Label- und Multi-Task-Learnings und wird in einem End-to-End-Prozess trainiert. Durch unsere Experimente bestätigen wir die Idee, dass das Lernen holistischer Darstellungen ergänzend ist und eine Schlüsselrolle bei der Ermöglichung vieler Realwelt-Anwendungen spielen kann.