Revisiting Classifier: Übertragung von Vision-Language-Modellen für die Videoerkennung

Die Übertragung von Wissen aus aufgabenunabhängigen vortrainierten tiefen Modellen auf nachgeschaltete Aufgaben ist ein zentrales Thema in der Forschung im Bereich des maschinellen Sehens. Mit dem Anstieg der Rechenkapazität stehen heute großskalige, Open-Source-Vision-Sprache-Prätrainingsmodelle mit umfangreichen Architekturen und Datenmengen zur Verfügung. In dieser Studie konzentrieren wir uns auf die Übertragung von Wissen für Aufgaben der Videoklassifikation. Traditionelle Ansätze initialisieren den linearen Klassifikatorkopf für visuelle Klassifikation zufällig, wobei die Nutzung des Text-Encoders für nachgeschaltete visuelle Erkennungsaufgaben bisher unerforscht blieb. In diesem Paper überarbeiten wir die Rolle des linearen Klassifikators und ersetzen ihn durch Wissen aus dem vortrainierten Modell. Wir nutzen das gut vortrainierte Sprachmodell, um semantisch sinnvolle Ziele zu generieren, um einen effizienten Transferlernen-Prozess zu ermöglichen. Die empirische Studie zeigt, dass unsere Methode sowohl die Leistung als auch die Trainingsgeschwindigkeit der Videoklassifikation verbessert, wobei sich die Modellstruktur nur minimal verändert. Unser einfaches, jedoch wirksames Anpassungsparadigma erreicht state-of-the-art-Leistung und effizientes Training in verschiedenen Szenarien der Videorekognition, nämlich Zero-Shot-, Few-Shot- und allgemeine Erkennung. Insbesondere erzielt unser Paradigma eine state-of-the-art-Accuracy von 87,8 % auf Kinetics-400 und übertrifft bisherige Methoden unter Zero-Shot- und Few-Shot-Bedingungen auf fünf gängigen Videodatenbanken um 20 bis 50 Prozentpunkte in der absoluten Top-1-Accuracy. Der Quellcode und die Modelle sind unter https://github.com/whwu95/Text4Vis verfügbar.