vor 2 Monaten

Ein kognitives Paradigma zur Untersuchung der Schnittstelle zwischen Wahrnehmung und Schlussfolgerung in VLMs

Vaishnav, Mohit ; Tammet, Tanel

Abstract

Eine grundlegende Herausforderung im Bereich der Künstlichen Intelligenz besteht darin, die kognitiven Mechanismen zu verstehen, die visuelles Denken in fortschrittlichen Modellen wie Vision-Sprach-Modellen (VLMs) unterliegen. Wie integrieren diese Modelle visuelle Wahrnehmung mit abstraktem Denken, insbesondere wenn sie über mehrere Bilder hinweg Schlussfolgerungen ziehen oder eine feingranulare kompositionale Verständnisfähigkeit erfordern? Inspiriert von der Kognitionsforschung präsentiert dieser Artikel ein strukturiertes Evaluationsframework, das durch verschiedene visuelle Denkaufgaben – Bongard-Probleme (BPs) und Winoground – die Schnittstelle zwischen Wahrnehmung und Denken in VLMs analysieren soll. Wir schlagen drei unterschiedliche Evaluationsparadigmen vor, die menschlichen Problemlösungsstrategien entsprechen: Direktes Visuelles Regellernen (DVRL; holistische Verarbeitung), Deduktives Regelernen (DRL; Regelauswahl und -anwendung) und Komponentenanalyse (CA; analytische Zerlegung durch aufgabenunabhängige textuelle Beschreibungen). Diese Paradigmen variieren systematisch den kognitiven Aufwand und untersuchen Verarbeitungsstufen. Besonders hervorzuheben ist, dass CA auch für Architekturen, die nur einzelne Bilder verarbeiten können, die Bewertung des Mehrbild-Denkens ermöglicht und das Denken von der Wahrnehmung durch die Arbeit mit textuellen Beschreibungen trennt. Durch Anwendung dieses Frameworks zeigen wir, dass CA, indem es leistungsfähige Sprachmodelle nutzt, um über reichhaltige, unabhängig generierte Beschreibungen zu denken, neue Standarts (SOTA) in anspruchsvollen Benchmarks wie Bongard-OpenWorld, Bongard-HOI und Winoground erreicht. Abstraktionsstudien bestätigen, dass das Denken erheblich verbessert wird, wenn wahrnehmungsbezogene Herausforderungen reduziert werden, was eine kritische Wahrnehmungsflaschenhals aufdeckt. Unser Framework bietet ein wertvolles Diagnosetool und deutet darauf hin, dass das Trennen von Wahrnehmung (durch reichhaltige, aufgabenunabhängige Beschreibungen) vom Denken eine vielversprechende Richtung für robuste und allgemeine visuelle Intelligenz darstellt.