HyperAI超神经

慢感知 Slow Perception

慢感知 (slow perception) 是人工智能领域用于提升多模态大模型视觉推理能力的一项技术,由 StepFun 团队和北京航空航天大学于 2025 年联合提出,旨在通过将感知过程拆分,实现对几何图形等的精细感知,以提升多模态大模型在视觉推理任务中的表现。相关论文成果为「Slow Perception: Let’s Perceive Geometric Figures Step-by-step」。

慢感知 (slow perception) 分为 2 个阶段:

  • 感知分解 (Perception Decompositio):将几何图形分解为基本的形状单元——线,统一复杂的几何表征,避免多峰优化问题 (Multimodal Optimization),达到「化繁为简」的目的。避免了模型在处理复杂几何图形时可能出现的错误,例如多边形嵌套问题。
  • 感知流 (Perception Flow):模型基于虚拟的感知尺,从线段的初始点逐步描向终止点,将长线段的感知过程建模为在决策点通过多次眼跳到达下一个决策点的过程,引入感知层面的推理时间扩展,提高模型对线段的精确预测能力。

慢感知 (slow perception) 通过模拟人类逐步解析几何图形的方式,显著提高了模型对复杂几何图形的解析能力。该方法不仅在实验中展示了显著的性能提升,还揭示了推理时间扩展规律,即通过增加计算复杂度来提高解析精度。这一发现为计算机视觉中的几何图形解析任务提供了新的思路。