ViperGPT: Visuelle Inferenz durch Python-Ausführung für Reasoning

Die Beantwortung visueller Abfragen ist eine komplexe Aufgabe, die sowohl visuelle Verarbeitung als auch Schlussfolgerung erfordert. End-to-End-Modelle, die dominierende Herangehensweise an dieses Problem, unterscheiden diese beiden Aspekte nicht explizit, was die Interpretierbarkeit und Verallgemeinerung einschränkt. Die Entwicklung modularer Programme stellt eine vielversprechende Alternative dar, ist jedoch aufgrund der Schwierigkeit, sowohl Programme als auch Module gleichzeitig zu lernen, bisher herausfordernd geblieben. Wir stellen ViperGPT vor, einen Rahmen, der Code-Generierungsmodelle nutzt, um visuelle und sprachbasierte Modelle zu Unterroutinen zusammenzufügen, um für beliebige Abfragen eine Antwort zu erzeugen. ViperGPT verwendet eine bereitgestellte API, um auf verfügbare Module zuzugreifen, und verknüpft diese durch Generierung von Python-Code, der anschließend ausgeführt wird. Dieser einfache Ansatz erfordert keine zusätzliche Ausbildung und erreicht state-of-the-art-Ergebnisse bei verschiedenen komplexen visuellen Aufgaben.