TricorNet: Ein hybrides zeitliches Faltungs- und Rekurrenznetzwerk für die Segmentierung von Videobewegungen

Die Aktionserkennung als Meilenstein bei der Entwicklung automatisierter Systeme zur Analyse ungeschnittener Videos hat in den letzten Jahren erhebliche Aufmerksamkeit erfahren. Sie wird in der Regel als ein sequenzielles Klassifizierungsproblem modelliert, enthält jedoch wesentliche und ausreichende Unterschiede zu Textanalyse oder Sprachverarbeitung. In dieser Arbeit stellen wir ein neuartiges hybrides temporales Faltungs- und Rekurrentes Netzwerk (TricorNet) vor, das eine Encoder-Decoder-Architektur aufweist: Der Encoder besteht aus einer Hierarchie temporaler Faltungskerne, die die lokalen Bewegungsänderungen verschiedener Aktionen erfassen; der Decoder ist eine Hierarchie rekurrenter Neuronaler Netze, die nach dem Kodierungsprozess in der Lage sind, langfristige Abhängigkeiten von Aktionen zu lernen und zu speichern. Unser Modell ist einfach, aber äußerst effektiv für die sequenzielle Klassifizierung von Videosequenzen. Die experimentellen Ergebnisse auf drei öffentlichen Aktionserkennung-Datensätzen zeigen, dass das vorgeschlagene Modell eine überlegene Leistung im Vergleich zum Stand der Technik erzielt.