HyperAIHyperAI
vor 18 Tagen

Kooperatives spatiotemporal Feature-Lernen für die Video-Aktionserkennung

{ Shiliang Pu, Di Xie, Qiaoyong Zhong, Chao Li}
Kooperatives spatiotemporal Feature-Lernen für die Video-Aktionserkennung
Abstract

Die räumlich-zeitliche Merkmalslernung ist von zentraler Bedeutung für die Aktionserkennung in Videos. Bestehende tiefgreifende neuronale Netzwerke lernen entweder räumliche und zeitliche Merkmale unabhängig voneinander (C2D) oder gemeinsam mit ungehinderten Parametern (C3D). In diesem Artikel stellen wir eine neuartige neuronale Operation vor, die räumlich-zeitliche Merkmale kooperativ durch Einführung einer Gewichtsverteilungsbeschränkung auf die lernbaren Parameter kodiert. Insbesondere führen wir 2D-Faltung entlang dreier orthogonaler Ansichten volumetrischer Videodaten durch, wodurch räumliche Erscheinungsmerkmale und zeitliche Bewegungsinformationen jeweils getrennt erlernt werden. Durch die gemeinsame Nutzung der Faltungskerne verschiedener Ansichten werden räumliche und zeitliche Merkmale kooperativ gelernt und somit voneinander profitieren. Die ergänzenden Merkmale werden anschließend durch eine gewichtete Summation fusioniert, deren Koeffizienten end-to-end gelernt werden. Unser Ansatz erreicht Spitzenleistung auf großen Benchmarks und erzielte den 1. Platz beim Moments in Time Challenge 2018. Darüber hinaus ermöglicht die Analyse der gelernten Koeffizienten verschiedener Ansichten eine quantitative Bewertung des Beitrags räumlicher und zeitlicher Merkmale. Diese Untersuchung trägt zur Interpretierbarkeit des Modells bei und könnte zukünftig die Entwicklung von Algorithmen für die Videorekognition leiten.