HyperAIHyperAI

Command Palette

Search for a command to run...

Co-Training von Transformer mit Videos und Bildern verbessert die Aktionserkennung

Bowen Zhang Jiahui Yu Christopher Fifty Wei Han Andrew M. Dai Ruoming Pang Fei Sha

Zusammenfassung

Bei der Lernung von Bewegungserkennung werden Modelle typischerweise zunächst auf Objekterkennung mit Bildern, beispielsweise auf ImageNet, vortrainiert und anschließend auf Ziel-Aufgaben der Bewegungserkennung mit Videos feinabgestimmt. Dieser Ansatz hat insbesondere mit jüngsten transformerbasierten Videoarchitekturen gute empirische Ergebnisse erzielt. Während in jüngster Zeit zahlreiche Arbeiten darauf abzielen, fortschrittlichere Transformer-Architekturen für die Bewegungserkennung zu entwerfen, wurde bisher weniger Aufmerksamkeit darauf verwendet, wie Video-Transformer effektiv trainiert werden können. In dieser Arbeit untersuchen wir verschiedene Trainingsparadigmen und präsentieren zwei zentrale Erkenntnisse. Erstens profitieren Video-Transformer von einer gemeinsamen (joint) Trainingsstrategie auf diversen Video-Datensätzen und unterschiedlichen Label-Räumen (beispielsweise ist Kinetics auf Erscheinungsbild fokussiert, während SomethingSomething auf Bewegung fokussiert ist). Zweitens verbessert sich die Qualität der Video-Repräsentationen noch weiter, wenn die Video-Transformer zusätzlich gemeinsam mit Bildern (als Einzelbilder in Videos) trainiert werden. Wir bezeichnen diesen Ansatz als Co-training Videos and Images for Action Recognition (CoVeR). Insbesondere, wenn CoVeR auf ImageNet-21K basierend auf der TimeSFormer-Architektur vortrainiert wird, steigert es die Top-1-Accuracy auf Kinetics-400 um 2,4 %, auf Kinetics-600 um 2,3 % und auf SomethingSomething-v2 um 2,3 %. Bei Verwendung größerer Bilddatensätze, wie sie in vorherigen State-of-the-Art-Verfahren verwendet wurden, erreicht CoVeR die besten Ergebnisse auf Kinetics-400 (87,2 %), Kinetics-600 (87,9 %), Kinetics-700 (79,8 %), SomethingSomething-v2 (70,9 %) und Moments-in-Time (46,1 %), wobei lediglich ein einfacher räumlich-zeitlicher Video-Transformer verwendet wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp