HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Programm-Destillation: Destillierung von Werkzeugen und programmatischem Denken in visuelle-sprachliche Modelle

Yushi Hu1,2∗ Otilia Stretcu1 Chun-Ta Lu1 Krishnamurthy Viswanathan1 Kenji Hata1 Enming Luo1 Ranjay Krishna2 Ariel Fuxman1

Zusammenfassung

Die Lösung komplexer visueller Aufgaben wie „Wer hat das Musikinstrument rechts erfunden?“ erfordert eine Kombination von Fähigkeiten: den Raum zu verstehen, Instrumente zu erkennen und auch vorheriges Wissen abzurufen. Neueste Arbeiten zeigen vielversprechende Ergebnisse, indem sie solche Aufgaben mittels eines großen Sprachmodells (LLM) in ein ausführbares Programm zerlegen, das spezialisierte Visionmodelle aufruft. Allerdings sind die generierten Programme fehleranfällig: Sie lassen notwendige Schritte aus, fügen überflüssige hinzu und können sich nicht selbst korrigieren, wenn die spezialisierten Modelle falsche Ausgaben liefern. Zudem erfordern sie das Laden mehrerer Modelle, was zu hohen Latenzen und Rechenkosten führt. Wir schlagen Visual Program Distillation (VPD) vor, einen Anweisungstuning-Rahmen, der ein visuell-sprachliches Modell (VLM) produziert, das komplexe visuelle Aufgaben mit einem einzigen Vorwärtsdurchgang lösen kann. VPD extrahiert die Schlussfolgerungsfähigkeit von LLMs, indem es diese verwendet, um mehrere Kandidatenprogramme zu generieren, die dann ausgeführt und verifiziert werden, um ein korrektes zu identifizieren. Jedes korrekte Programm wird in eine sprachliche Beschreibung der Schlussfolgerungsschritte übersetzt, die dann in ein VLM destilliert werden. Umfangreiche Experimente zeigen, dass VPD die Fähigkeit des VLMs verbessert, Objekte zu zählen, räumliche Beziehungen zu verstehen und kompositionell zu schlussfolgern. Unser VPD-geschultes PaLI-X übertrifft alle bisherigen VLMs und erreicht den Stand der Technik bei komplexen Visionaufgaben einschließlich MMBench, OK-VQA, A-OKVQA, TallyQA, POPE und Hateful Memes. Eine Bewertung durch menschliche Annotatoren bestätigt ebenfalls, dass VPD die Faktualität und Konsistenz der Modellausgaben verbessert. Schließlich zeigen Experimente zur Inhaltsmoderation auch die Nützlichkeit von VPD für Anpassungen an Realweltanwendungen mit begrenzten Datenmengen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp