HyperAIHyperAI
vor 2 Monaten

Lassen Sie Ihre Etiketten mit unüberwachtem Transfer fallen

Gadetsky, Artyom ; Jiang, Yulun ; Brbic, Maria
Lassen Sie Ihre Etiketten mit unüberwachtem Transfer fallen
Abstract

Fundamentale Vision-Sprach-Modelle haben eine bemerkenswerte Zero-Shot-Übertragbarkeit der vortrainierten Repräsentationen auf eine Vielzahl von Downstream-Aufgaben ermöglicht. Allerdings erfordert die Lösung einer neuen Aufgabe weiterhin menschliche Anleitung, um visuelle Kategorien zu definieren, die in den Daten auftreten. In dieser Arbeit zeigen wir, dass eine vollständig unüberwachte Übertragung entsteht, wenn man nach der Beschriftung eines Datensatzes sucht, der maximale Margen-Klassifizierer in den Repräsentationsräumen verschiedener Fundamentmodelle induziert. Wir stellen TURTLE vor, eine vollständig unüberwachte Methode, die dieses Leitprinzip effektiv nutzt, um die zugrunde liegende Beschriftung eines Downstream-Datensatzes ohne jede Überwachung und aufgabenspezifisches Lernen von Repräsentationen zu enthüllen. Wir evaluieren TURTLE anhand einer vielfältigen Benchmark-Suite aus 26 Datensätzen und zeigen, dass es neue Standarts in der unüberwachten Leistung erreicht. Darüber hinaus übertrifft TURTLE, obwohl es vollständig unüberwacht ist, Zero-Shot-Übertragungs-Baselines auf einem breiten Spektrum von Datensätzen. Insbesondere erreicht TURTLE durch die Nutzung des gleichen Repräsentationsraums das durchschnittliche Leistungsvermögen von CLIP-Zero-Shot auf 26 Datensätzen, wobei ein breites Spektrum von Architekturen und Modellgrößen abgedeckt wird. Durch die Führung der Suche nach der zugrunde liegenden Beschriftung mit Hilfe der Repräsentationsräume zweier Fundamentmodelle übertrifft TURTLE sowohl Zero-Shot-Übertragungs- als auch unüberwachte Prompt-Tuning-Baselines und zeigt damit die überraschende Stärke und Effektivität unüberwachter Übertragung.请注意,"Zero-Shot" 和 "TURTLE" 这些专有名词在德语中通常保留英文原形。此外,“CLIP”也保持不变,因为它是一个特定的技术名称。