HyperAIHyperAI
vor 2 Monaten

Lernen, Anweisungen für Vision-Sprach-Modelle zu geben

Zhou, Kaiyang ; Yang, Jingkang ; Loy, Chen Change ; Liu, Ziwei
Lernen, Anweisungen für Vision-Sprach-Modelle zu geben
Abstract

Große vortrainierte Vision-Sprach-Modelle wie CLIP haben großes Potenzial gezeigt, Darstellungen zu lernen, die über einen breiten Spektrum an Downstream-Aufgaben übertragbar sind. Im Gegensatz zum traditionellen Darstellungslernen, das hauptsächlich auf diskretisierten Labels basiert, alignieren Vision-Sprach-Vortrainings Bilder und Texte in einem gemeinsamen Merkmalsraum. Dies ermöglicht eine Null-Shot-Übertragung auf eine Downstream-Aufgabe durch Anweisungen, d.h., Klassifikationsgewichte werden aus natürlicher Sprache synthetisiert, die die Klassen von Interesse beschreibt. In dieser Arbeit zeigen wir, dass ein wesentlicher Herausforderung bei der praktischen Implementierung solcher Modelle die Anweisungsingenieurie ist, die Fachwissen erfordert und extrem zeitaufwendig ist – es muss viel Zeit in die Feinabstimmung der Wörter investiert werden, da selbst geringfügige Veränderungen im Wortlaut einen großen Einfluss auf die Leistung haben können. Inspiriert durch jüngste Fortschritte in der Forschung zur Anweisungslernen in der Natürlichen Sprachverarbeitung (NLP), schlagen wir Context Optimization (CoOp) vor, einen einfachen Ansatz, der speziell für die Anpassung von CLIP-ähnlichen Vision-Sprach-Modellen an Downstream-Bilderkennung entwickelt wurde. Konkret modelliert CoOp den Kontext einer Anweisung mit lernfähigen Vektoren, während alle vortrainierten Parameter unverändert bleiben. Um verschiedene Bilderkennungsaufgaben zu bearbeiten, bieten wir zwei Implementierungen von CoOp: einen vereinten Kontext und einen klassenspezifischen Kontext. Durch umfangreiche Experimente auf 11 Datensätzen demonstrieren wir, dass CoOp bereits bei einem oder zwei Schüssen handgefertigte Anweisungen deutlich übertrifft und bei mehr Schüssen signifikante Verbesserungen gegenüber der Anweisungsingenieurie erzielen kann; so beträgt der durchschnittliche Gewinn bei 16 Schüssen etwa 15 % (mit dem höchsten Wert von über 45 %). Trotz seines lernbasierten Ansatzes erreicht CoOp eine ausgezeichnete Domänenverallgemeinerungsleistung im Vergleich zum Null-Shot-Modell mit handgefertigten Anweisungen.