HyperAIHyperAI
vor 2 Tagen

Thymian: Denken Sie über Bilder hinaus

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
Thymian: Denken Sie über Bilder hinaus
Abstract

Nach der Einführung des Konzepts „Denken mit Bildern“ durch OpenAI haben jüngste Forschungsanstrengungen darauf abgezielt, die Nutzung visueller Informationen im Denkprozess zu fördern, um die Leistungsfähigkeit von Modellen bei Wahrnehmungs- und Schlussfolgerungsaufgaben zu verbessern. Doch soweit uns bekannt ist, bietet derzeit kein Open-Source-Projekt ein so umfassendes Funktionsspektrum wie proprietäre Modelle (z. B. O3), die diverse Bildmanipulationen durchführen und gleichzeitig ihre logischen Schlussfolgerungsfähigkeiten mittels Code verbessern können. In diesem Paper unternehmen wir einen ersten Ansatz in diese Richtung und stellen Thyme (Think Beyond Images) vor – ein neuartiges Paradigma, das multimodale große Sprachmodelle (MLLMs) befähigt, bestehende Ansätze des „Denkens mit Bildern“ zu überwinden, indem sie autonom diverse Bildverarbeitungs- und Rechenoperationen über ausführbaren Code generieren und ausführen. Dieser Ansatz ermöglicht nicht nur eine reichhaltige, dynamische Palette an Bildmanipulationen (z. B. Ausschneiden, Drehen, Kontrastverbesserung), sondern auch mathematische Berechnungen, wobei gleichzeitig ein hohes Maß an Autonomie bei der Entscheidung, wann und wie diese Operationen angewendet werden, gewahrt bleibt. Wir aktivieren diese Fähigkeit durch eine zweistufige Trainingsstrategie: zunächst eine Supervised Fine-Tuning (SFT)-Phase auf einem ausgewählten Datensatz mit 500.000 Samples zur Vermittlung der Codegenerierung, gefolgt von einer Reinforcement Learning (RL)-Phase zur Verfeinerung der Entscheidungsfindung. Für die RL-Phase sammeln wir manuell hochauflösende Frage-Antwort-Paare und entwerfen sie gezielt, um die Lernschwierigkeit zu erhöhen. Zudem präsentieren wir GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), einen Algorithmus, der unterschiedliche Temperaturen für Text- und Codegenerierung anwendet, um den Ausgleich zwischen explorativer Schlussfolgerung und präziser Code-Ausführung zu optimieren. Wir führen umfassende experimentelle Analysen und Ablationsstudien durch. Die umfassende Bewertung an nahezu 20 Benchmarks zeigt, dass Thyme signifikante und konsistente Leistungssteigerungen erzielt, insbesondere bei anspruchsvollen Aufgaben mit hoher Auflösung im Bereich der Wahrnehmung und komplexer Schlussfolgerung.

Thymian: Denken Sie über Bilder hinaus | Neueste Forschungsarbeiten | HyperAI