Lernen von räumlich-zeitlichen Repräsentationen mit Pseudo-3D Residuennetzwerken

Faltungsschichtneuronale Netze (CNN) gelten als eine leistungsfähige Klasse von Modellen für Probleme der Bilderkennung. Dennoch ist es nicht trivial, CNNs bei der Lernung von räumlich-zeitlichen Video-Darstellungen einzusetzen. Einige Studien haben gezeigt, dass die Durchführung von 3D-Faltungen ein lohnendes Vorgehen ist, um sowohl die räumliche als auch die zeitliche Dimension in Videos zu erfassen. Allerdings führt die Entwicklung eines sehr tiefen 3D-CNN von Grund auf neu zu hohen Rechenkosten und Speicheranforderungen. Eine berechtigte Frage lautet daher, warum man nicht vorgefertigte 2D-Netze für ein 3D-CNN recyceln sollte. In dieser Arbeit entwickeln wir mehrere Varianten von Flaschenhals-Bausteinen in einem Residuallernframework, indem wir $3\times3\times3$-Faltungen mit $1\times3\times3$-Faltungsfiltern im räumlichen Bereich (entspricht einem 2D-CNN) plus $3\times1\times1$-Faltungen simulieren, um zeitliche Verbindungen zwischen benachbarten Merkmalskarten herzustellen. Darüber hinaus schlagen wir eine neue Architektur vor, die Pseudo-3D Residual Net (P3D ResNet) genannt wird, welche alle Varianten der Bausteine nutzt, aber diese an verschiedenen Positionen des ResNet zusammensetzt. Dabei folgen wir dem Prinzip, dass die Steigerung der strukturellen Vielfalt durch das Vergrößern der Tiefe die Leistungsfähigkeit neuronaler Netze verbessern kann. Unser P3D ResNet erzielt klare Verbesserungen beim Video-Klassifikationsdatensatz Sports-1M gegenüber 3D-CNN und rahmenbasierten 2D-CNN um 5,3 % und 1,8 % respektive. Wir untersuchen zudem die Generalisierungsleistung der durch unser vortrainiertes P3D ResNet erzeugten Video-Darstellungen an fünf verschiedenen Benchmarks und drei verschiedenen Aufgaben und zeigen dabei überlegene Leistungen gegenüber mehreren Stand-of-the-Art-Techniken.请注意,虽然您提到的是“使其更符合法语读者的阅读习惯”,但根据您的要求,我已将文本翻译成德语。如果您需要法语翻译,请告知我。