HYDRA: Ein Hyper-Agent für dynamische zusammengesetzte visuelle Schlussfolgerung

Neuere Fortschritte im Bereich des visuellen Schließens (Visual Reasoning, VR), insbesondere durch die Unterstützung von großen visuell-sprachlichen Modellen (Large Vision-Language Models, VLMs), zeigen vielversprechende Perspektiven, erfordern jedoch den Zugriff auf große Datensätze und stoßen auf Herausforderungen wie hohe Rechenkosten und begrenzte Generalisierungsfähigkeit. Kompositionelle Ansätze zum visuellen Schließen sind als effektive Strategien hervorgetreten; sie beruhen jedoch stark auf dem allgemeinen Wissen, das in großen Sprachmodellen (Large Language Models, LLMs) kodiert ist, um Planung oder Schließung (oder beides) durchzuführen, ohne die Auswirkungen ihrer Entscheidungen auf den visuellen Schließprozess zu berücksichtigen. Dies kann zu Fehlern oder fehlgeschlagenen Verfahren führen. Um diese Herausforderungen anzugehen, stellen wir HYDRA vor – einen mehrstufigen, dynamischen, kompositionellen Rahmen für visuelles Schließen, der auf zuverlässiges und schrittweise fortschreitendes Generalisieren ausgerichtet ist. HYDRA integriert drei zentrale Module: einen Planer, einen durch Verstärkendes Lernen (Reinforcement Learning, RL) gesteuerten Agenten als kognitiven Controller sowie einen Schließer. Die Module Planer und Schließer nutzen ein LLM, um Anweisungsbeispiele zu generieren und ausgewählte Anweisungen ausführbaren Code zu erzeugen, während der RL-Agent dynamisch mit diesen Modulen interagiert und auf Grundlage der aus einer Rückkopplungsschleife gespeicherten historischen Zustandsinformationen hochwertige Entscheidungen über die Auswahl des besten Anweisungsbeispiels trifft. Diese anpassungsfähige Architektur ermöglicht es HYDRA, seine Aktionen anhand vorheriger Rückmeldungen während des Schließprozesses anzupassen, was zu zuverlässigeren Schließergebnissen führt und letztlich die Gesamteffektivität erhöht. Unser Framework erreicht state-of-the-art-Leistungen bei verschiedenen VR-Aufgaben auf vier unterschiedlichen, weit verbreiteten Datensätzen.