Erweiterung von Sprache-Bild-Vortrainierten Modellen für die allgemeine Videobewertung

Kontrastive Sprache-Bild-Vortrainierung hat erheblichen Erfolg bei der Lernung gemeinsamer visueller-Textrepräsentationen aus webskaligen Daten gezeigt und eine bemerkenswerte „Zero-Shot“-Generalisierungsfähigkeit für verschiedene Bildaufgaben demonstriert. Allerdings bleibt die effektive Erweiterung solcher Sprache-Bild-Vortrainierungsansätze auf den Video-Bereich weiterhin eine offene Herausforderung. In dieser Arbeit präsentieren wir einen einfachen, aber wirksamen Ansatz, der bestehende Sprache-Bild-Modelle direkt für die Videoerkennung anpasst, anstatt ein neues Modell von Grund auf neu vorzutrainieren. Konkret schlagen wir eine cross-frame-Attention-Mechanismus vor, der die langfristigen Abhängigkeiten zwischen Bildern entlang der zeitlichen Dimension erfassen kann, indem er explizit Informationen zwischen den Frames austauscht. Dieses Modul ist leichtgewichtig und lässt sich nahtlos in bereits vortrainierte Sprache-Bild-Modelle integrieren. Darüber hinaus entwickeln wir eine video-spezifische Prompt-Strategie, die Inhaltsinformationen aus Videos nutzt, um diskriminative textuelle Prompts zu generieren. Umfangreiche Experimente zeigen, dass unser Ansatz wirksam ist und sich auf verschiedene Videoerkennungsszenarien verallgemeinern lässt. Insbesondere erzielt unser Ansatz unter vollständig überwachten Bedingungen eine Top-1-Accuracy von 87,1 % auf Kinetics-400, wobei er 12-mal weniger FLOPs benötigt als Swin-L und ViViT-H. In Zero-Shot-Experimenten übertrifft unser Ansatz die derzeitigen State-of-the-Art-Methoden um +7,6 % und +14,9 % hinsichtlich der Top-1-Accuracy unter zwei gängigen Protokollen. In Few-Shot-Szenarien erreicht unser Ansatz eine Verbesserung von +32,1 % und +23,1 % gegenüber den vorherigen Bestleistungen, selbst wenn die Anzahl an gelabelten Daten äußerst begrenzt ist. Code und Modelle sind unter https://aka.ms/X-CLIP verfügbar.