HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Agent0-VL: Untersuchung eines sich selbst entwickelnden Agents für werkzeugintegrierte visuelle Sprach-Reasoning

Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

Agent0-VL: Untersuchung eines sich selbst entwickelnden Agents für werkzeugintegrierte visuelle Sprach-Reasoning

Abstract

Vision-Sprache-Agenten haben erhebliche Fortschritte bei einer Vielzahl multimodaler Schlussfolgerungsaufgaben erzielt; ihre Lernfähigkeit bleibt jedoch weiterhin durch die Beschränkungen menschlicher Annotationen eingeschränkt. Neuere Ansätze zur Selbstbelohnung versuchen, diese Einschränkung zu überwinden, indem sie es Modellen ermöglichen, als eigene Kritiker oder Belohnungsgeber zu agieren. Reine textbasierte Selbstbewertung stößt jedoch bei der Überprüfung komplexer visueller Schlussfolgerungsschritte an ihre Grenzen und leidet häufig unter Bewertungshalluzinationen. Um diese Herausforderungen anzugehen, lassen wir uns von jüngsten Fortschritten im Bereich der werkzeugintegrierten Schlussfolgerung inspirieren und stellen Agent0-VL vor – einen sich selbst entwickelnden Vision-Sprache-Agenten, der durch werkzeugintegrierte Schlussfolgerung kontinuierliche Verbesserung erzielt. Agent0-VL integriert die Nutzung von Werkzeugen nicht nur in die Schlussfolgerung, sondern auch in die Selbstbewertung und Selbstreparatur, wodurch das Modell in der Lage ist, seine Schlussfolgerungen durch evidenzbasierte Analyse zu introspektieren, zu überprüfen und zu verfeinern. Es vereint innerhalb eines einzigen LVLM (Large Vision-Language Model) zwei synergistische Rollen: einen Solver, der mehrschrittige, werkzeugintegrierte Schlussfolgerungen durchführt, und einen Verifier, der strukturierte Rückmeldungen und feinkörnige Selbstbelohnungen durch werkzeugbasierte Kritik generiert. Diese Rollen interagieren über einen selbstentwickelnden Schlussfolgerungszyklus, bei dem werkzeugbasierte Überprüfung und Verstärkendes Lernen gemeinsam die Verteilungen von Schlussfolgerung und Bewertung stabilisieren, um eine kontinuierliche Selbstverbesserung zu ermöglichen. Durch diese Evolution ohne externe Belohnungen aligniert Agent0-VL seine Schlussfolgerungs- und Überprüfungsverhalten vollständig ohne menschliche Annotationen oder externe Belohnungsmodelle und erreicht so kontinuierliche Selbstverbesserung. Experimente im Bereich geometrischer Problemlösung und visueller wissenschaftlicher Analyse zeigen, dass Agent0-VL eine Verbesserung um 12,5 % gegenüber dem Basismodell erzielt. Unser Code ist unter https://github.com/aiming-lab/Agent0/Agent0-VL verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Agent0-VL: Untersuchung eines sich selbst entwickelnden Agents für werkzeugintegrierte visuelle Sprach-Reasoning | Forschungsarbeiten | HyperAI