HyperAI
vor 8 Tagen

Pixel, Muster, aber keine Poesie: Die Welt wie Menschen sehen

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
Pixel, Muster, aber keine Poesie: Die Welt wie Menschen sehen
Abstract

Die Erreichung menschenähnlicher Wahrnehmung und Schlussfolgerung in Multimodal Large Language Models (MLLMs) bleibt ein zentraler Herausforderung im Bereich der künstlichen Intelligenz. Während die jüngsten Forschungen hauptsächlich darauf abzielen, die Schlussfolgerungsfähigkeiten in MLLMs zu verbessern, bleibt eine grundlegende Frage bestehen: Können Multimodal Large Language Models die Welt wirklich so wahrnehmen wie Menschen? In dieser Arbeit wird der Fokus von der Schlussfolgerung auf die Wahrnehmung verlagert. Anstatt Benchmarks zu konstruieren, die speziell für die Schlussfolgerung entwickelt wurden, führen wir den Turing Eye Test (TET) ein, einen anspruchsvollen, wahrnehmungsorientierten Benchmark, der aus vier diagnostischen Aufgaben besteht und die Leistungsfähigkeit von MLLMs an synthetischen Bildern bewertet, die Menschen intuitiv verarbeiten. Unsere Ergebnisse zeigen, dass aktuelle State-of-the-Art-MLLMs auf unseren wahrnehmungsorientierten Aufgaben katastrophale Fehler machen, die für Menschen trivial sind. Sowohl in-Context-Lernen als auch das Training auf der Sprachbasis, das für frühere Benchmarks effektiv war, führen nicht zu einer Verbesserung der Leistung auf unseren Aufgaben. Im Gegenteil ermöglicht das Fine-Tuning des Vision-Towers eine schnelle Anpassung, was darauf hindeutet, dass unser Benchmark Herausforderungen für die Generalisierungsfähigkeit des Vision-Towers darstellt und nicht für das Wissen oder die Schlussfolgerungsfähigkeit der Sprachbasis – eine Schlüssellücke zwischen aktuellen MLLMs und der menschlichen Wahrnehmung. In dieser Version veröffentlichen wir eine repräsentative Teilmenge der TET-Aufgaben und werden in zukünftigen Arbeiten weitere vielfältige Aufgaben und Methoden einführen, um die visuelle Generalisierung zu verbessern.