HyperAIHyperAI

Command Palette

Search for a command to run...

ViperGPT: Visuelle Inferenz durch Python-Ausführung für Reasoning

Dídac Surís Sachit Menon Carl Vondrick

Zusammenfassung

Die Beantwortung visueller Abfragen ist eine komplexe Aufgabe, die sowohl visuelle Verarbeitung als auch Schlussfolgerung erfordert. End-to-End-Modelle, die dominierende Herangehensweise an dieses Problem, unterscheiden diese beiden Aspekte nicht explizit, was die Interpretierbarkeit und Verallgemeinerung einschränkt. Die Entwicklung modularer Programme stellt eine vielversprechende Alternative dar, ist jedoch aufgrund der Schwierigkeit, sowohl Programme als auch Module gleichzeitig zu lernen, bisher herausfordernd geblieben. Wir stellen ViperGPT vor, einen Rahmen, der Code-Generierungsmodelle nutzt, um visuelle und sprachbasierte Modelle zu Unterroutinen zusammenzufügen, um für beliebige Abfragen eine Antwort zu erzeugen. ViperGPT verwendet eine bereitgestellte API, um auf verfügbare Module zuzugreifen, und verknüpft diese durch Generierung von Python-Code, der anschließend ausgeführt wird. Dieser einfache Ansatz erfordert keine zusätzliche Ausbildung und erreicht state-of-the-art-Ergebnisse bei verschiedenen komplexen visuellen Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViperGPT: Visuelle Inferenz durch Python-Ausführung für Reasoning | Paper | HyperAI