HyperAIHyperAI

Command Palette

Search for a command to run...

Ein kognitives Paradigma zur Untersuchung der Schnittstelle zwischen Wahrnehmung und Schlussfolgerung in VLMs

Mohit Vaishnav Tanel Tammet

Zusammenfassung

Eine grundlegende Herausforderung im Bereich der Künstlichen Intelligenz besteht darin, die kognitiven Mechanismen zu verstehen, die visuelles Denken in fortschrittlichen Modellen wie Vision-Sprach-Modellen (VLMs) unterliegen. Wie integrieren diese Modelle visuelle Wahrnehmung mit abstraktem Denken, insbesondere wenn sie über mehrere Bilder hinweg Schlussfolgerungen ziehen oder eine feingranulare kompositionale Verständnisfähigkeit erfordern? Inspiriert von der Kognitionsforschung präsentiert dieser Artikel ein strukturiertes Evaluationsframework, das durch verschiedene visuelle Denkaufgaben – Bongard-Probleme (BPs) und Winoground – die Schnittstelle zwischen Wahrnehmung und Denken in VLMs analysieren soll. Wir schlagen drei unterschiedliche Evaluationsparadigmen vor, die menschlichen Problemlösungsstrategien entsprechen: Direktes Visuelles Regellernen (DVRL; holistische Verarbeitung), Deduktives Regelernen (DRL; Regelauswahl und -anwendung) und Komponentenanalyse (CA; analytische Zerlegung durch aufgabenunabhängige textuelle Beschreibungen). Diese Paradigmen variieren systematisch den kognitiven Aufwand und untersuchen Verarbeitungsstufen. Besonders hervorzuheben ist, dass CA auch für Architekturen, die nur einzelne Bilder verarbeiten können, die Bewertung des Mehrbild-Denkens ermöglicht und das Denken von der Wahrnehmung durch die Arbeit mit textuellen Beschreibungen trennt. Durch Anwendung dieses Frameworks zeigen wir, dass CA, indem es leistungsfähige Sprachmodelle nutzt, um über reichhaltige, unabhängig generierte Beschreibungen zu denken, neue Standarts (SOTA) in anspruchsvollen Benchmarks wie Bongard-OpenWorld, Bongard-HOI und Winoground erreicht. Abstraktionsstudien bestätigen, dass das Denken erheblich verbessert wird, wenn wahrnehmungsbezogene Herausforderungen reduziert werden, was eine kritische Wahrnehmungsflaschenhals aufdeckt. Unser Framework bietet ein wertvolles Diagnosetool und deutet darauf hin, dass das Trennen von Wahrnehmung (durch reichhaltige, aufgabenunabhängige Beschreibungen) vom Denken eine vielversprechende Richtung für robuste und allgemeine visuelle Intelligenz darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp