HyperAI
vor 17 Tagen

Nachverfolgbares Beweismaterial gesteigerte visuelle begründete Schlussfolgerung: Evaluation und Methodologie

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
Nachverfolgbares Beweismaterial gesteigerte visuelle begründete Schlussfolgerung: Evaluation und Methodologie
Abstract

Modelle wie OpenAI-o3 pionieren visuelles begründetes Schließen durch die dynamische Referenzierung visueller Bereiche, ähnlich dem menschlichen „Denken mit Bildern“. Es existiert jedoch kein Benchmark, der diese Fähigkeiten umfassend bewertet. Um diese Lücke zu schließen, schlagen wir TreeBench (Traceable Evidence Evaluation Benchmark) vor, einen diagnostischen Benchmark, der auf drei Prinzipien basiert: (1) fokussierte visuelle Wahrnehmung subtiler Ziele in komplexen Szenen, (2) nachvollziehbares Beweismaterial durch die Bewertung von Bounding Boxes und (3) zweiter Ordnung Schließen zur Überprüfung von Objektinteraktionen und räumlichen Hierarchien über einfache Objektlokalisation hinaus. Unter Priorisierung von Bildern mit dicht gedrängten Objekten entnehmen wir zunächst 1.000 hochwertige Bilder aus SA-1B und integrieren acht LMM-Experten (Large Multimodal Models), die für jedes Bild Fragen, Kandidatenoptionen und Antworten manuell annotieren. Nach drei Qualitätskontrollstufen besteht TreeBench aus 405 anspruchsvollen visuellen Frage-Antwort-Paaren, bei denen selbst die fortschrittlichsten Modelle Schwierigkeiten haben; keines erreicht eine Genauigkeit von 60%, beispielsweise erzielt OpenAI-o3 nur 54,87%. Darüber hinaus führen wir TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning) ein, ein Trainingsparadigma, das durch Reinforcement Learning die gemeinsame Überwachung von Lokalisierung und Schließprozess ermöglicht und somit präzise Lokalisierungen sowie erklärbare Schließwege gewährleistet. Basierend auf Qwen2.5-VL-7B verbessert es V* Bench (+16,8), MME-RealWorld (+12,6) und TreeBench (+13,4), was zeigt, dass Nachverfolgbarkeit entscheidend ist für den Fortschritt des vision-basierten Schließens. Der Quellcode ist unter https://github.com/Haochen-Wang409/TreeVGR verfügbar.