vor 17 Tagen

MoViNets: Mobile Video Networks für effiziente Videoerkennung

Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong

Abstract

Wir stellen Mobile Video Networks (MoViNets) vor, eine Familie von rechen- und speicher-effizienten Videonetzen, die für die Online-Inferenz auf Streaming-Videos geeignet sind. 3D-Convolutional Neural Networks (CNNs) sind bei der Videobewertung genau, erfordern jedoch hohe Rechen- und Speicherressourcen und unterstützen keine Online-Inferenz, wodurch ihre Anwendung auf mobilen Geräten erschwert wird. Wir schlagen einen dreistufigen Ansatz vor, um die Rechen-Effizienz zu verbessern und die Spitzen-Speicherauslastung von 3D-CNNs erheblich zu reduzieren. Erstens entwerfen wir einen Suchraum für Videonetze und nutzen Neural Architecture Search, um effiziente und vielfältige 3D-CNN-Architekturen zu generieren. Zweitens führen wir die Stream Buffer-Technik ein, die den Speicherverbrauch von der Dauer des Videoclips entkoppelt und es 3D-CNNs ermöglicht, beliebig lange Streaming-Videosequenzen sowohl beim Training als auch bei der Inferenz mit einem kleinen, konstanten Speicherbedarf zu verarbeiten. Drittens schlagen wir eine einfache Ensembling-Technik vor, die die Genauigkeit weiter verbessert, ohne die Effizienz zu beeinträchtigen. Diese drei fortgeschrittenen Techniken ermöglichen es MoViNets, state-of-the-art-Genauigkeit und Effizienz auf den Video-Action-Recognition-Datensätzen Kinetics, Moments in Time und Charades zu erreichen. Beispielsweise erreicht MoViNet-A5-Stream dieselbe Genauigkeit wie X3D-XL auf Kinetics 600, benötigt jedoch 80 % weniger FLOPs und 65 % weniger Speicher. Der Quellcode wird unter https://github.com/tensorflow/models/tree/master/official/vision verfügbar gemacht.