HyperAIHyperAI
vor 2 Monaten

Verschiedene zeitliche Aggregation und tiefenweise räumlich-zeitliche Faktorisierung für effiziente Video-Klassifizierung

Lee, Youngwan ; Kim, Hyung-Il ; Yun, Kimin ; Moon, Jinyoung
Verschiedene zeitliche Aggregation und tiefenweise räumlich-zeitliche Faktorisierung für effiziente Video-Klassifizierung
Abstract

Video-Klassifikationsforschungen, die kürzlich Aufmerksamkeit gefunden haben, sind die Bereiche der zeitlichen Modellierung und der effizienten 3D-Architektur. Allerdings sind die Methoden der zeitlichen Modellierung nicht effizient oder die effiziente 3D-Architektur interessiert sich weniger für die zeitliche Modellierung. Um diese Lücke zu schließen, schlagen wir eine effiziente 3D-Architektur zur zeitlichen Modellierung vor, die als VoV3D bezeichnet wird und aus einem zeitlichen One-Shot-Aggregation (T-OSA)-Modul und einem tiefen faktorisierten Komponenten, D(2+1)D, besteht. Das T-OSA wurde entwickelt, um eine MerkmalsHierarchie durch Aggregation von zeitlichen Merkmalen mit unterschiedlichen zeitlichen Rezeptivfeldern aufzubauen. Durch das Stapeln dieses T-OSA kann das Netzwerk selbst sowohl kurzfristige als auch langfristige zeitliche Beziehungen über Frames hinweg modellieren, ohne externe Module zu benötigen. Inspiriert von Kernelfaktorisierung und Kanalfaktorisierung haben wir zudem ein tiefes räumlich-zeitliches Faktorisierungsmodul entworfen, das als D(2+1)D bezeichnet wird und eine 3D-tiefe Faltung in zwei räumliche und zeitliche tiefe Faltungen zerlegt, um unser Netzwerk leichter und effizienter zu gestalten. Durch den Einsatz des vorgeschlagenen Verfahrens zur zeitlichen Modellierung (T-OSA) und der effizienten faktorisierten Komponente (D(2+1)D) konstruieren wir zwei Arten von VoV3D-Netzwerken: VoV3D-M und VoV3D-L. Dank seiner Effizienz und Wirksamkeit bei der zeitlichen Modellierung hat VoV3D-L sechsmal weniger Modellparameter und sechzehnmal weniger Berechnungsaufwand als eine state-of-the-art Methode der zeitlichen Modellierung auf den Datensätzen Something-Something und Kinetics-400. Darüber hinaus zeigt VoV3D eine bessere Leistungsfähigkeit bei der zeitlichen Modellierung als eine state-of-the-art effiziente 3D-Architektur, X3D, bei vergleichbarer Modellkapazität. Wir hoffen, dass VoV3D als Baseline für effiziente Video-Klassifikation dienen kann.请注意,"state-of-the-art" 是一个在德语文献中常用的英语借词,通常直接使用而不进行翻译。如果需要完全德语化的表述,可以将其替换为 "standardsicherstellend" 或 "spitzenmodern".