HyperAIHyperAI
vor 2 Monaten

Soziale Szeneverstehung: End-to-End-Mehrpersonen-Aktionslokalisation und kollektive Aktivitätserkennung

Timur Bagautdinov; Alexandre Alahi; François Fleuret; Pascal Fua; Silvio Savarese
Soziale Szeneverstehung: End-to-End-Mehrpersonen-Aktionslokalisation und kollektive Aktivitätserkennung
Abstract

Wir präsentieren ein einheitliches Framework zur Analyse menschlichen sozialen Verhaltens in rohen Bildsequenzen. Unser Modell erkennt gleichzeitig mehrere Individuen, inferiert ihre sozialen Aktionen und schätzt kollektive Aktivitäten mit einem einzigen Vorwärtsdurchgang durch ein neuronales Netzwerk. Wir schlagen eine einzelne Architektur vor, die nicht auf externe Detektionsalgorithmen angewiesen ist, sondern von Anfang bis Ende trainiert wird, um dichte Vorschlagskarten zu generieren, die durch ein neuartiges Inferenzverfahren verfeinert werden. Die zeitliche Konsistenz wird mittels eines personenbezogenen Matching-Recurrent-Neural-Networks (RNN) behandelt. Das vollständige Modell nimmt eine Folge von Frames als Eingabe entgegen und gibt Detektionen zusammen mit den Schätzungen individueller Aktionen und kollektiver Aktivitäten aus. Wir zeigen die Stand der Technik leistende Performance unseres Algorithmus an mehreren öffentlich zugänglichen Benchmarks auf.