AI-System PyVision ermöglicht dynamische Werkzeuge für visuelle Aufgaben.
Ein neues AI-Papier stellt PyVision vor, ein Python-zentriertes Framework, das es KI-Modellen ermöglicht, während des Denkprozesses eigene Tools zu schreiben. Visual Reasoning-Aufgaben erfordern, dass KI-Modelle visuelle Informationen mit Perzeption und logischem Denken verarbeiten. Dazu gehören Anwendungen wie medizinische Diagnosen, visuelle Mathematik, symbolische Rätsel und Bildbasierte Fragebeantwortung. Erfolg in diesem Bereich erfordert nicht nur Objekterkennung, sondern auch dynamische Anpassung, Abstraktion und Kontextinferenz. Modelle müssen Bilder analysieren, relevante Merkmale identifizieren und oft Erklärungen oder Lösungen generieren, die eine Reihe von Denk- und Verarbeitungsschritten beinhalten. Bisherige Modelle besitzen oft feste Werkzeugmengen und starre Prozesse. Modelle wie Visual ChatGPT, HuggingGPT oder ViperGPT verwenden vorgefertigte Tools, sind aber auf vordefinierte Abläufe beschränkt. Dies limitiert die Kreativität und Flexibilität. Sie können ihre Werkzeugmengen während einer Aufgabe nicht anpassen oder erweitern und verarbeiten Aufgaben meist linear, was sie in Bereichen mit iterativem Denken weniger nützlich macht. Multi-Turn-Fähigkeiten sind entweder nicht vorhanden oder stark eingeschränkt, wodurch tieferes analytisches Denken erschwert wird. PyVision wurde von Forschern der Shanghai AI Lab, der Rice University, der CUHK, der NUS und der SII entwickelt, um diese Probleme zu lösen. Das Framework ermöglicht es großen Multimodal-Modellen (MLLMs), während einer Aufgabe dynamisch Python-basierte Tools zu erstellen und auszuführen. Im Gegensatz zu früheren Ansätzen ist PyVision nicht auf statische Module beschränkt. Es verwendet Python als primäre Sprache und konstruiert Tools in einem mehrschrittigen Prozess. Dies erlaubt der KI, ihre Strategie während der Aufgabe anzupassen, Entscheidungen zu treffen, Ergebnisse zu reflektieren und Code oder Denkprozesse in mehreren Schritten zu verfeinern. In der Praxis startet PyVision mit einem Nutzeranfrage und einem visuellen Input. Das MLLM generiert basierend auf dem Prompt Python-Code, der in einer isolierten Umgebung ausgeführt wird. Die Ergebnisse – textuell, visuell oder numerisch – werden zurückgemeldet, und das Modell kann seinen Plan überarbeiten, neuen Code generieren und iterativ weiterarbeiten, bis eine Lösung gefunden wird. PyVision unterstützt eine kontinuierliche Zustandserhaltung über mehrere Schritte hinweg, was sequenzielles Denken ermöglicht. Das System verfügt über interne Sicherheitsmerkmale wie Prozessisolierung und strukturierte I/O, um robuste Leistungen auch bei komplexen Aufgaben zu gewährleisten. Es nutzt Python-Bibliotheken wie OpenCV, NumPy und Pillow, um Aufgaben wie Segmentierung, OCR, Bildverbesserung und statistische Analysen durchzuführen. Quantitative Benchmarks bestätigen die Effektivität von PyVision. Auf dem visuellen Suchbenchmark V* verbesserte PyVision die Leistung von GPT-4.1 von 68,1 % auf 75,9 %, eine Steigerung um 7,8 %. Auf dem symbolischen visuellen Reasoning-Benchmark VLMsAreBlind-mini stieg die Genauigkeit von Claude-4.0-Sonnet von 48,1 % auf 79,2 %, eine Steigerung um 31,1 %. Weitere Verbesserungen wurden bei anderen Aufgaben beobachtet, wie beispielsweise +2,4 % bei MMMU und +2,5 % bei VisualPuzzles für GPT-4.1 sowie +4,8 % bei MathVista und +8,3 % bei VisualPuzzles für Claude-4.0-Sonnet. Die Verbesserungen hängen von den Stärken des zugrunde liegenden Modells ab – Modelle, die in der Perzeption gut sind, profitieren mehr von PyVision bei Aufgaben mit hoher Perzeption, während Modelle mit starken Denkfähigkeiten in abstrakten Herausforderungen stärker profitieren. PyVision verstärkt die Fähigkeiten des Basismodells, ohne sie zu verdecken oder zu ersetzen. Diese Forschung markiert einen bedeutenden Fortschritt im Bereich visueller Reasoning. PyVision überwindet eine grundlegende Beschränkung, indem es Modellen ermöglicht, während des Prozesses problembezogene Tools in Echtzeit zu erstellen. Der Ansatz verwandelt statische Modelle in agente Systeme, die in der Lage sind, sorgfältig und iterativ Probleme zu lösen. Durch die dynamische Verknüpfung von Perzeption und Reasoning macht PyVision einen entscheidenden Schritt in Richtung intelligenter, anpassungsfähiger KI für komplexe visuelle Herausforderungen in der realen Welt. PyVision wird von Forschern aus mehreren Institutionen entwickelt und bietet eine innovative Methode, um die Fähigkeiten von KI-Modellen in visuellen Aufgaben zu erweitern. Es wird auf GitHub und in einem Projekt veröffentlicht, und die Forschung wird von der Community aufmerksam verfolgt.