vor 17 Tagen

Co-Training von Transformer mit Videos und Bildern verbessert die Aktionserkennung

Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha

Abstract

Bei der Lernung von Bewegungserkennung werden Modelle typischerweise zunächst auf Objekterkennung mit Bildern, beispielsweise auf ImageNet, vortrainiert und anschließend auf Ziel-Aufgaben der Bewegungserkennung mit Videos feinabgestimmt. Dieser Ansatz hat insbesondere mit jüngsten transformerbasierten Videoarchitekturen gute empirische Ergebnisse erzielt. Während in jüngster Zeit zahlreiche Arbeiten darauf abzielen, fortschrittlichere Transformer-Architekturen für die Bewegungserkennung zu entwerfen, wurde bisher weniger Aufmerksamkeit darauf verwendet, wie Video-Transformer effektiv trainiert werden können. In dieser Arbeit untersuchen wir verschiedene Trainingsparadigmen und präsentieren zwei zentrale Erkenntnisse. Erstens profitieren Video-Transformer von einer gemeinsamen (joint) Trainingsstrategie auf diversen Video-Datensätzen und unterschiedlichen Label-Räumen (beispielsweise ist Kinetics auf Erscheinungsbild fokussiert, während SomethingSomething auf Bewegung fokussiert ist). Zweitens verbessert sich die Qualität der Video-Repräsentationen noch weiter, wenn die Video-Transformer zusätzlich gemeinsam mit Bildern (als Einzelbilder in Videos) trainiert werden. Wir bezeichnen diesen Ansatz als Co-training Videos and Images for Action Recognition (CoVeR). Insbesondere, wenn CoVeR auf ImageNet-21K basierend auf der TimeSFormer-Architektur vortrainiert wird, steigert es die Top-1-Accuracy auf Kinetics-400 um 2,4 %, auf Kinetics-600 um 2,3 % und auf SomethingSomething-v2 um 2,3 %. Bei Verwendung größerer Bilddatensätze, wie sie in vorherigen State-of-the-Art-Verfahren verwendet wurden, erreicht CoVeR die besten Ergebnisse auf Kinetics-400 (87,2 %), Kinetics-600 (87,9 %), Kinetics-700 (79,8 %), SomethingSomething-v2 (70,9 %) und Moments-in-Time (46,1 %), wobei lediglich ein einfacher räumlich-zeitlicher Video-Transformer verwendet wird.