HyperAI

Langsame Wahrnehmung

Slow Perception ist eine Technologie, die im Bereich der künstlichen Intelligenz eingesetzt wird, um die visuellen Denkfähigkeiten großer multimodaler Modelle zu verbessern. Es wurde 2025 gemeinsam vom StepFun-Team und der Beihang-Universität vorgeschlagen. Ziel ist es, den Wahrnehmungsprozess aufzuteilen, um eine feine Wahrnehmung geometrischer Figuren usw. zu erreichen und so die Leistung großer multimodaler Modelle bei visuellen Denkaufgaben zu verbessern. Die relevanten Papierergebnisse sindLangsame Wahrnehmung: Lassen Sie uns geometrische Figuren Schritt für Schritt wahrnehmen".

Die langsame Wahrnehmung wird in zwei Phasen unterteilt:

  • Wahrnehmungszerlegung: Zerlegen Sie geometrische Figuren in grundlegende Formeinheiten – Linien, vereinheitlichen Sie komplexe geometrische Darstellungen, vermeiden Sie multimodale Optimierungsprobleme und erreichen Sie das Ziel der „Vereinfachung des Komplexen“. Dadurch werden Fehler vermieden, die auftreten können, wenn das Modell komplexe Geometrien verarbeitet, wie etwa Probleme bei der Polygonverschachtelung.
  • Wahrnehmungsfluss: Das Modell basiert auf einem virtuellen Wahrnehmungslineal, das das Liniensegment schrittweise von seinem Anfangspunkt bis zu seinem Endpunkt verfolgt. Der Wahrnehmungsprozess eines langen Liniensegments wird als ein Prozess modelliert, bei dem der nächste Entscheidungspunkt durch mehrere Sakkaden von einem Entscheidungspunkt aus erreicht wird. Dadurch wird eine Verlängerung der Argumentationszeit auf der Wahrnehmungsebene eingeführt, um die Fähigkeit des Modells zu verbessern, Liniensegmente genau vorherzusagen.

Durch die langsame Wahrnehmung wird die Fähigkeit des Modells, komplexe geometrische Figuren zu analysieren, erheblich verbessert, indem die Art und Weise simuliert wird, wie Menschen geometrische Figuren Schritt für Schritt analysieren. Diese Methode zeigte in Experimenten nicht nur erhebliche Leistungsverbesserungen, sondern enthüllte auch das Gesetz der Argumentationszeiterweiterung, d. h. eine Verbesserung der Analysegenauigkeit durch Erhöhung der Rechenkomplexität. Diese Entdeckung liefert neue Ideen für die Aufgabe der geometrischen Figurenanalyse in der Computervision.