Jeder Moment zählt: Dichte detaillierte Aktionenbeschriftung in komplexen Videos

Jede Sekunde zählt bei der Aktionserkennung. Ein umfassendes Verständnis menschlicher Aktivitäten in Videos erfordert das Kennzeichnen jedes Bildes gemäß den darin auftretenden Aktionen und das dichte Anbringen mehrerer Labels über eine Videosequenz. Um dieses Problem zu untersuchen, erweitern wir den bestehenden THUMOS-Datensatz und stellen MultiTHUMOS vor, einen neuen Datensatz mit dichten Labels für unbeschränkte Internetvideos. Das Modellieren von mehreren, dicht angeordneten Labels profitiert von zeitlichen Beziehungen innerhalb und zwischen Klassen. Wir definieren eine neuartige Variante von Long Short-Term Memory (LSTM)-Tiefen neuronalen Netzen zur Modellierung dieser zeitlichen Beziehungen durch mehrere Eingangs- und Ausgangsverbindungen. Wir zeigen, dass dieses Modell die Genauigkeit der Aktionskennzeichnung verbessert und darüber hinaus tiefere Verständnisaufgaben ermöglicht, die von strukturierten Retrieval bis hin zur Aktionsvorhersage reichen.