MAtch, eXpand und Improve: Unüberwachtes Feinjustierung für die Zero-Shot Aktionserkennung mit Sprachwissen

Großskalige Vision-Sprache (VS) Modelle haben erheblichen Erfolg bei der Angleichung von Repräsentationen zwischen visuellen und textuellen Modalitäten gezeigt. Dies ermöglicht bemerkenswerte Fortschritte in der Nullschuss-Erkennung (zero-shot recognition), Bildgenerierung & Bearbeitung sowie vielen anderen aufregenden Aufgaben. Allerdings neigen VS-Modelle dazu, Objekte zu überrepräsentieren, während sie viel weniger Aufmerksamkeit auf Verben richten, und erfordern eine zusätzliche Anpassung an Videodaten für die beste Nullschuss-Aktionserkennungsleistung. Während frühere Arbeiten auf groß angelegten, vollständig annotierten Daten basierten, schlagen wir in dieser Arbeit einen unüberwachten Ansatz vor. Wir passen ein VS-Modell für die Nullschuss- und Few-Shot-Aktionserkennung an, indem wir eine Sammlung von nicht annotierten Videos und ein nicht zugeordnetes Aktionswörterbuch verwenden. Darauf aufbauend nutzen wir große Sprachmodelle und VS-Modelle, um für jedes nicht annotierte Video durch Abgleich, Texterweiterung und Beschriftung einen Textbeutel (text bag) zu erstellen. Diese Beutel werden in einem Mehrfachinstanz-Lernszenario verwendet, um ein Bild-Text-Rückgratmodell an Videodaten anzupassen. Obwohl auf nicht annotierten Videodaten feinjustiert, zeigen unsere resultierenden Modelle eine hohe Übertragbarkeit auf zahlreiche unbekannte Nullschuss-Nachbearbeitungsaufgaben, wobei die Leistung des Basis-VS-Modells um bis zu 14 % verbessert wird. In der Nullschuss- und Few-Shot-Videounternehmensübertragung leisten unsere Modelle sogar vergleichbare Ergebnisse wie vollständig überwachte Baselineverfahren. Der Code wird später unter \url{https://github.com/wlin-at/MAXI} veröffentlicht.