HyperAIHyperAI

Command Palette

Search for a command to run...

MAtch, eXpand und Improve: Unüberwachtes Feinjustierung für die Zero-Shot Aktionserkennung mit Sprachwissen

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

Zusammenfassung

Großskalige Vision-Sprache (VS) Modelle haben erheblichen Erfolg bei der Angleichung von Repräsentationen zwischen visuellen und textuellen Modalitäten gezeigt. Dies ermöglicht bemerkenswerte Fortschritte in der Nullschuss-Erkennung (zero-shot recognition), Bildgenerierung & Bearbeitung sowie vielen anderen aufregenden Aufgaben. Allerdings neigen VS-Modelle dazu, Objekte zu überrepräsentieren, während sie viel weniger Aufmerksamkeit auf Verben richten, und erfordern eine zusätzliche Anpassung an Videodaten für die beste Nullschuss-Aktionserkennungsleistung. Während frühere Arbeiten auf groß angelegten, vollständig annotierten Daten basierten, schlagen wir in dieser Arbeit einen unüberwachten Ansatz vor. Wir passen ein VS-Modell für die Nullschuss- und Few-Shot-Aktionserkennung an, indem wir eine Sammlung von nicht annotierten Videos und ein nicht zugeordnetes Aktionswörterbuch verwenden. Darauf aufbauend nutzen wir große Sprachmodelle und VS-Modelle, um für jedes nicht annotierte Video durch Abgleich, Texterweiterung und Beschriftung einen Textbeutel (text bag) zu erstellen. Diese Beutel werden in einem Mehrfachinstanz-Lernszenario verwendet, um ein Bild-Text-Rückgratmodell an Videodaten anzupassen. Obwohl auf nicht annotierten Videodaten feinjustiert, zeigen unsere resultierenden Modelle eine hohe Übertragbarkeit auf zahlreiche unbekannte Nullschuss-Nachbearbeitungsaufgaben, wobei die Leistung des Basis-VS-Modells um bis zu 14 % verbessert wird. In der Nullschuss- und Few-Shot-Videounternehmensübertragung leisten unsere Modelle sogar vergleichbare Ergebnisse wie vollständig überwachte Baselineverfahren. Der Code wird später unter \url{https://github.com/wlin-at/MAXI} veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp