Agent0-VL: Untersuchung eines sich selbst entwickelnden Agents für werkzeugintegrierte visuelle Sprach-Reasoning
Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

Abstract
Vision-Sprache-Agenten haben erhebliche Fortschritte bei einer Vielzahl multimodaler Schlussfolgerungsaufgaben erzielt; ihre Lernfähigkeit bleibt jedoch weiterhin durch die Beschränkungen menschlicher Annotationen eingeschränkt. Neuere Ansätze zur Selbstbelohnung versuchen, diese Einschränkung zu überwinden, indem sie es Modellen ermöglichen, als eigene Kritiker oder Belohnungsgeber zu agieren. Reine textbasierte Selbstbewertung stößt jedoch bei der Überprüfung komplexer visueller Schlussfolgerungsschritte an ihre Grenzen und leidet häufig unter Bewertungshalluzinationen. Um diese Herausforderungen anzugehen, lassen wir uns von jüngsten Fortschritten im Bereich der werkzeugintegrierten Schlussfolgerung inspirieren und stellen Agent0-VL vor – einen sich selbst entwickelnden Vision-Sprache-Agenten, der durch werkzeugintegrierte Schlussfolgerung kontinuierliche Verbesserung erzielt. Agent0-VL integriert die Nutzung von Werkzeugen nicht nur in die Schlussfolgerung, sondern auch in die Selbstbewertung und Selbstreparatur, wodurch das Modell in der Lage ist, seine Schlussfolgerungen durch evidenzbasierte Analyse zu introspektieren, zu überprüfen und zu verfeinern. Es vereint innerhalb eines einzigen LVLM (Large Vision-Language Model) zwei synergistische Rollen: einen Solver, der mehrschrittige, werkzeugintegrierte Schlussfolgerungen durchführt, und einen Verifier, der strukturierte Rückmeldungen und feinkörnige Selbstbelohnungen durch werkzeugbasierte Kritik generiert. Diese Rollen interagieren über einen selbstentwickelnden Schlussfolgerungszyklus, bei dem werkzeugbasierte Überprüfung und Verstärkendes Lernen gemeinsam die Verteilungen von Schlussfolgerung und Bewertung stabilisieren, um eine kontinuierliche Selbstverbesserung zu ermöglichen. Durch diese Evolution ohne externe Belohnungen aligniert Agent0-VL seine Schlussfolgerungs- und Überprüfungsverhalten vollständig ohne menschliche Annotationen oder externe Belohnungsmodelle und erreicht so kontinuierliche Selbstverbesserung. Experimente im Bereich geometrischer Problemlösung und visueller wissenschaftlicher Analyse zeigen, dass Agent0-VL eine Verbesserung um 12,5 % gegenüber dem Basismodell erzielt. Unser Code ist unter https://github.com/aiming-lab/Agent0/Agent0-VL verfügbar.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.