Command Palette
Search for a command to run...
Zeitsegment-Netze für die Aktenerkennung in Videos
Zeitsegment-Netze für die Aktenerkennung in Videos
Zusammenfassung
Tiefgehende konvolutionelle Netzwerke haben bei der Bilderkennung erhebliche Erfolge erzielt. Für die Aktionserkennung in Videos ist ihr Vorteil gegenüber herkömmlichen Methoden jedoch weniger deutlich. In diesem Beitrag präsentieren wir einen allgemeinen und flexiblen, auf Videoebene basierenden Rahmen für die Lernung von Aktionmodellen in Videos. Diese Methode, die sogenannte Temporal Segment Network (TSN), zielt darauf ab, langfristige zeitliche Strukturen durch ein neuartiges, segmentbasiertes Abtast- und Aggregationsmodul zu modellieren. Diese einzigartige Architektur ermöglicht es unserer TSN, Aktionmodelle effizient anhand der gesamten Aktionsszenen zu lernen. Die gelernten Modelle können einfach an die Aktionserkennung in trimmten und untrimmten Videos angepasst werden, wobei jeweils einfache Durchschnitts-Pooling-Operationen und die Integration über mehrere zeitliche Skalen zum Einsatz kommen. Zudem untersuchen wir eine Reihe bewährter Praktiken zur Implementierung des TSN-Rahmens unter beschränkten Trainingsdaten. Unser Ansatz erzielt die bisher beste Leistung auf vier anspruchsvollen Benchmarks für Aktionserkennung: HMDB51 (71,0 %), UCF101 (94,9 %), THUMOS14 (80,1 %) und ActivityNet v1.2 (89,6 %). Mit der vorgeschlagenen RGB-Differenz zur Modellierung von Bewegung erreicht unsere Methode weiterhin konkurrenzfähige Genauigkeit auf UCF101 (91,0 %), wobei die Verarbeitungsgeschwindigkeit bei 340 FPS liegt. Darüber hinaus gewannen wir mit der Temporal Segment Network die Video-Klassifikations-Track bei der ActivityNet Challenge 2016 unter 24 Teams, was die Wirksamkeit der TSN-Methode sowie der vorgeschlagenen bewährten Praktiken belegt.