Perception Lente
La perception lente est une technologie utilisée dans le domaine de l'intelligence artificielle pour améliorer les capacités de raisonnement visuel des grands modèles multimodaux. Il a été proposé conjointement par l'équipe StepFun et l'Université Beihang en 2025. Il vise à diviser le processus de perception pour obtenir une perception fine des figures géométriques, etc., afin d'améliorer les performances des grands modèles multimodaux dans les tâches de raisonnement visuel. Les résultats pertinents de l'article sontPerception lente : percevons les figures géométriques étape par étape".
La perception lente est divisée en 2 étapes :
- Décomposition de la perception : décomposer les figures géométriques en unités de forme de base - lignes, unifier les représentations géométriques complexes, éviter les problèmes d'optimisation multimodale et atteindre l'objectif de « simplifier le complexe ». Cela évite les erreurs qui peuvent survenir lorsque le modèle gère des géométries complexes, telles que les problèmes d’imbrication de polygones.
- Flux de perception : Le modèle est basé sur une règle de perception virtuelle, qui trace progressivement le segment de ligne de son point initial à son point final. Le processus de perception d'un long segment de ligne est modélisé comme un processus permettant d'atteindre le prochain point de décision à travers plusieurs saccades à partir d'un point de décision. Cela introduit une extension du temps de raisonnement au niveau de la perception pour améliorer la capacité du modèle à prédire avec précision les segments de ligne.
La perception lente améliore considérablement la capacité du modèle à analyser des figures géométriques complexes en simulant la manière dont les humains analysent les figures géométriques étape par étape. Cette méthode a non seulement démontré des améliorations significatives des performances dans les expériences, mais a également révélé la loi de l’expansion du temps de raisonnement, c’est-à-dire l’amélioration de la précision de l’analyse en augmentant la complexité de calcul. Cette découverte fournit de nouvelles idées pour la tâche d’analyse des figures géométriques en vision par ordinateur.