Command Palette
Search for a command to run...
Temporale Segment-Netzwerke: Hinweise auf gute Praktiken für die tiefe Aktionserkennung
Temporale Segment-Netzwerke: Hinweise auf gute Praktiken für die tiefe Aktionserkennung
Zusammenfassung
Tiefgehende konvolutionelle Netzwerke haben bei der visuellen Erkennung in statischen Bildern erheblichen Erfolg erzielt. Für die Aktionserkennung in Videos ist der Vorteil gegenüber herkömmlichen Methoden jedoch weniger deutlich. In dieser Arbeit werden Prinzipien zur Gestaltung effektiver ConvNet-Architekturen für die Aktionserkennung in Videos untersucht, sowie Verfahren entwickelt, um diese Modelle unter Berücksichtigung begrenzter Trainingsdaten zu lernen. Unser erster Beitrag ist das Temporal Segment Network (TSN), ein neuartiges Framework für die Aktionserkennung basierend auf Videoinhalten, das auf der Idee der Modellierung langer zeitlicher Strukturen beruht. Es kombiniert eine spärliche zeitliche Abtaststrategie mit videoübergreifender Überwachung, um eine effiziente und effektive Lernprozesse unter Nutzung des gesamten Aktionssvideos zu ermöglichen. Ein weiterer Beitrag ist unsere Untersuchung einer Reihe bewährter Praktiken beim Lernen von ConvNets für Videodaten unter Verwendung des Temporal Segment Networks. Unser Ansatz erreicht die bisher beste Leistung auf den Datensätzen HMDB51 (69,4 %) und UCF101 (94,2 %). Zudem visualisieren wir die gelernten ConvNet-Modelle, was qualitativ die Wirksamkeit des Temporal Segment Networks sowie der vorgeschlagenen bewährten Praktiken belegt.