HyperAIHyperAI

Command Palette

Search for a command to run...

Verschiedene zeitliche Aggregation und tiefenweise räumlich-zeitliche Faktorisierung für effiziente Video-Klassifizierung

Lee Youngwan ; Kim Hyung-Il ; Yun Kimin ; Moon Jinyoung

Zusammenfassung

Video-Klassifikationsforschungen, die kürzlich Aufmerksamkeit gefunden haben, sind die Bereiche der zeitlichen Modellierung und der effizienten 3D-Architektur. Allerdings sind die Methoden der zeitlichen Modellierung nicht effizient oder die effiziente 3D-Architektur interessiert sich weniger für die zeitliche Modellierung. Um diese Lücke zu schließen, schlagen wir eine effiziente 3D-Architektur zur zeitlichen Modellierung vor, die als VoV3D bezeichnet wird und aus einem zeitlichen One-Shot-Aggregation (T-OSA)-Modul und einem tiefen faktorisierten Komponenten, D(2+1)D, besteht. Das T-OSA wurde entwickelt, um eine MerkmalsHierarchie durch Aggregation von zeitlichen Merkmalen mit unterschiedlichen zeitlichen Rezeptivfeldern aufzubauen. Durch das Stapeln dieses T-OSA kann das Netzwerk selbst sowohl kurzfristige als auch langfristige zeitliche Beziehungen über Frames hinweg modellieren, ohne externe Module zu benötigen. Inspiriert von Kernelfaktorisierung und Kanalfaktorisierung haben wir zudem ein tiefes räumlich-zeitliches Faktorisierungsmodul entworfen, das als D(2+1)D bezeichnet wird und eine 3D-tiefe Faltung in zwei räumliche und zeitliche tiefe Faltungen zerlegt, um unser Netzwerk leichter und effizienter zu gestalten. Durch den Einsatz des vorgeschlagenen Verfahrens zur zeitlichen Modellierung (T-OSA) und der effizienten faktorisierten Komponente (D(2+1)D) konstruieren wir zwei Arten von VoV3D-Netzwerken: VoV3D-M und VoV3D-L. Dank seiner Effizienz und Wirksamkeit bei der zeitlichen Modellierung hat VoV3D-L sechsmal weniger Modellparameter und sechzehnmal weniger Berechnungsaufwand als eine state-of-the-art Methode der zeitlichen Modellierung auf den Datensätzen Something-Something und Kinetics-400. Darüber hinaus zeigt VoV3D eine bessere Leistungsfähigkeit bei der zeitlichen Modellierung als eine state-of-the-art effiziente 3D-Architektur, X3D, bei vergleichbarer Modellkapazität. Wir hoffen, dass VoV3D als Baseline für effiziente Video-Klassifikation dienen kann.请注意,"state-of-the-art" 是一个在德语文献中常用的英语借词,通常直接使用而不进行翻译。如果需要完全德语化的表述,可以将其替换为 "standardsicherstellend" 或 "spitzenmodern".


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp