Mehr ist weniger: Lernen effizienter Video-Repräsentationen durch Big-Little-Netzwerk und depthwise zeitliche Aggregation

Aktuelle State-of-the-Art-Modelle für die Video-Action-Erkennung basieren hauptsächlich auf kostspieligen 3D-ConvNets. Dies führt zu einem erheblichen Bedarf an großen GPU-Clustern zur Trainings- und Evaluierung solcher Architekturen. Um dieses Problem anzugehen, stellen wir eine leichte und speicherfreundliche Architektur für die Action-Erkennung vor, die mit nur einem Bruchteil der Ressourcen Leistungen erzielt, die derzeitige Architekturen erreichen oder sogar übertreffen. Die vorgeschlagene Architektur basiert auf einer Kombination eines tiefen Subnetzes, das auf niedrigauflösenden Frames operiert, mit einem kompakten Subnetz, das auf hochauflösenden Frames arbeitet. Dadurch wird gleichzeitig hohe Effizienz und hohe Genauigkeit ermöglicht. Wir zeigen, dass unser Ansatz im Vergleich zur Baseline eine Reduktion der FLOPs um $3\sim4$-fach und eine Reduktion des Speicherverbrauchs um etwa $2$-fach erreicht. Dies ermöglicht es, tiefere Modelle mit mehr Eingabebildern unter gleichbleibendem Rechenaufwand zu trainieren. Um den Bedarf an großskaligen 3D-Faltungen weiter zu verringern, wird ein zeitlicher Aggregationsmodul vorgeschlagen, das zeitliche Abhängigkeiten in Videos mit sehr geringen zusätzlichen Rechenkosten modelliert. Unsere Modelle erzielen starke Ergebnisse auf mehreren Benchmarks für Action-Erkennung, darunter Kinetics, Something-Something und Moments-in-time. Der Quellcode und die Modelle sind unter https://github.com/IBM/bLVNet-TAM verfügbar.