HyperAIHyperAI
vor 2 Monaten

Visuelle Programm-Destillation: Destillierung von Werkzeugen und programmatischem Denken in visuelle-sprachliche Modelle

Yushi Hu; Otilia Stretcu; Chun-Ta Lu; Krishnamurthy Viswanathan; Kenji Hata; Enming Luo; Ranjay Krishna; Ariel Fuxman
Visuelle Programm-Destillation: Destillierung von Werkzeugen und programmatischem Denken in visuelle-sprachliche Modelle
Abstract

Die Lösung komplexer visueller Aufgaben wie „Wer hat das Musikinstrument rechts erfunden?“ erfordert eine Kombination von Fähigkeiten: den Raum zu verstehen, Instrumente zu erkennen und auch vorheriges Wissen abzurufen. Neueste Arbeiten zeigen vielversprechende Ergebnisse, indem sie solche Aufgaben mittels eines großen Sprachmodells (LLM) in ein ausführbares Programm zerlegen, das spezialisierte Visionmodelle aufruft. Allerdings sind die generierten Programme fehleranfällig: Sie lassen notwendige Schritte aus, fügen überflüssige hinzu und können sich nicht selbst korrigieren, wenn die spezialisierten Modelle falsche Ausgaben liefern. Zudem erfordern sie das Laden mehrerer Modelle, was zu hohen Latenzen und Rechenkosten führt. Wir schlagen Visual Program Distillation (VPD) vor, einen Anweisungstuning-Rahmen, der ein visuell-sprachliches Modell (VLM) produziert, das komplexe visuelle Aufgaben mit einem einzigen Vorwärtsdurchgang lösen kann. VPD extrahiert die Schlussfolgerungsfähigkeit von LLMs, indem es diese verwendet, um mehrere Kandidatenprogramme zu generieren, die dann ausgeführt und verifiziert werden, um ein korrektes zu identifizieren. Jedes korrekte Programm wird in eine sprachliche Beschreibung der Schlussfolgerungsschritte übersetzt, die dann in ein VLM destilliert werden. Umfangreiche Experimente zeigen, dass VPD die Fähigkeit des VLMs verbessert, Objekte zu zählen, räumliche Beziehungen zu verstehen und kompositionell zu schlussfolgern. Unser VPD-geschultes PaLI-X übertrifft alle bisherigen VLMs und erreicht den Stand der Technik bei komplexen Visionaufgaben einschließlich MMBench, OK-VQA, A-OKVQA, TallyQA, POPE und Hateful Memes. Eine Bewertung durch menschliche Annotatoren bestätigt ebenfalls, dass VPD die Faktualität und Konsistenz der Modellausgaben verbessert. Schließlich zeigen Experimente zur Inhaltsmoderation auch die Nützlichkeit von VPD für Anpassungen an Realweltanwendungen mit begrenzten Datenmengen.