vor 2 Monaten

Lernen von latenten Super-Ereignissen zur Erkennung mehrerer Aktivitäten in Videos

AJ Piergiovanni; Michael S. Ryoo

Abstract

In dieser Arbeit führen wir das Konzept des Lernens latenter Superereignisse aus Aktivitätsvideos ein und erläutern, wie es die Aktivitätsdetektion in kontinuierlichen Videos verbessert. Wir definieren ein Superereignis als eine Menge von mehreren Ereignissen, die in Videos mit einer bestimmten zeitlichen Organisation zusammen auftreten; es ist das Gegenkonzept zu Subereignissen. Realwelt-Videos enthalten meist mehrere Aktivitäten und werden selten segmentiert (z.B. Überwachungsvideos), und das Lernen latenter Superereignisse ermöglicht dem Modell, die zeitliche Beziehung der Ereignisse in Videos zu erfassen. Wir entwickeln zeitliche Strukturfilter, die dem Modell ermöglichen, sich auf bestimmte Unterintervalle der Videos zu konzentrieren, und verwenden diese in Verbindung mit einem Soft-Attention-Mechanismus, um Darstellungen latenter Superereignisse zu lernen. Die Darstellungen von Superereignissen werden mit pro Frame oder pro Segment arbeitenden CNNs kombiniert, um annotierungen auf Frame-Ebene bereitzustellen. Unser Ansatz ist so gestaltet, dass er vollständig differenzierbar ist, was das end-to-end-Lernen von latenten Superereignis-Darstellungen zusammen mit den sie verwendenden Aktivitätsdetektoren ermöglicht. Unsere Experimente mit mehreren öffentlichen Videodatensätzen bestätigen, dass das vorgeschlagene Konzept des Lernens latenter Superereignisse die Aktivitätsdetektion erheblich verbessert und den Stand der Technik vorantreibt.