HyperAI超神経

知覚が遅い

スローパーセプションは、人工知能の分野で大規模マルチモーダルモデルの視覚推論能力を向上させるために使用される技術です。2025年にStepFunチームと北京航空航天大学が共同で提案しました。知覚プロセスを分割して幾何学図形などの微細知覚を実現し、視覚推論タスクにおける大規模マルチモーダルモデルのパフォーマンスを向上させることを目的としています。関連する論文の結果はゆっくりとした知覚:幾何学的図形を段階的に知覚してみましょう”。

遅い知覚は 2 つの段階に分かれています。

  • 知覚分解: 幾何学的図形を基本的な形状単位 (線) に分解し、複雑な幾何学的表現を統合し、マルチモーダル最適化問題を回避し、「複雑なものを単純化する」という目標を達成します。これにより、モデルがポリゴンのネストの問題などの複雑なジオメトリを処理するときに発生する可能性のあるエラーを回避できます。
  • 知覚フロー: このモデルは、仮想知覚定規に基づいており、線分を最初の点から最後の点まで徐々にトレースします。長い線分の知覚プロセスは、決定点から複数のサッカード運動を経て次の決定点に到達するプロセスとしてモデル化されます。これにより、知覚レベルで推論時間の延長が導入され、線分を正確に予測するモデルの能力が向上します。

遅い知覚は、人間が幾何学的図形を段階的に解析する方法をシミュレートすることで、複雑な幾何学的図形を解析するモデルの能力を大幅に向上させます。この方法は、実験で大幅なパフォーマンスの向上を示しただけでなく、計算の複雑さが増すことで解析精度が向上するという推論時間拡大の法則も明らかにしました。この発見は、コンピューター ビジョンにおける幾何学的図形の解析タスクに新たなアイデアをもたらします。