MoViNets: Mobile Video Networks für effiziente Videoerkennung

Wir stellen Mobile Video Networks (MoViNets) vor, eine Familie von rechen- und speicher-effizienten Videonetzen, die für die Online-Inferenz auf Streaming-Videos geeignet sind. 3D-Convolutional Neural Networks (CNNs) sind bei der Videobewertung genau, erfordern jedoch hohe Rechen- und Speicherressourcen und unterstützen keine Online-Inferenz, wodurch ihre Anwendung auf mobilen Geräten erschwert wird. Wir schlagen einen dreistufigen Ansatz vor, um die Rechen-Effizienz zu verbessern und die Spitzen-Speicherauslastung von 3D-CNNs erheblich zu reduzieren. Erstens entwerfen wir einen Suchraum für Videonetze und nutzen Neural Architecture Search, um effiziente und vielfältige 3D-CNN-Architekturen zu generieren. Zweitens führen wir die Stream Buffer-Technik ein, die den Speicherverbrauch von der Dauer des Videoclips entkoppelt und es 3D-CNNs ermöglicht, beliebig lange Streaming-Videosequenzen sowohl beim Training als auch bei der Inferenz mit einem kleinen, konstanten Speicherbedarf zu verarbeiten. Drittens schlagen wir eine einfache Ensembling-Technik vor, die die Genauigkeit weiter verbessert, ohne die Effizienz zu beeinträchtigen. Diese drei fortgeschrittenen Techniken ermöglichen es MoViNets, state-of-the-art-Genauigkeit und Effizienz auf den Video-Action-Recognition-Datensätzen Kinetics, Moments in Time und Charades zu erreichen. Beispielsweise erreicht MoViNet-A5-Stream dieselbe Genauigkeit wie X3D-XL auf Kinetics 600, benötigt jedoch 80 % weniger FLOPs und 65 % weniger Speicher. Der Quellcode wird unter https://github.com/tensorflow/models/tree/master/official/vision verfügbar gemacht.