Command Palette
Search for a command to run...

要約
真のマルチモーダル知能の進展には、反応型でタスク中心のシステムや、単に長文脈を無理に拡張するアプローチから、より広範な「スーパーセンシング(supersensing)」の枠組みへと転換する必要がある。本研究では、言語のみに依拠する理解を越えた4段階の空間的スーパーセンシングを定式化する。すなわち、(1)意味的知覚(視覚されたものを識別・命名する)、(2)ストリーミングイベント認知(連続する経験にわたる記憶を維持する)、(3)暗黙的3D空間認知(ピクセルの背後にある世界を推論する)、(4)予測的ワールドモデリング(情報のフィルタリングと構造化を行う内部モデルを構築する)である。現行のベンチマークは、主に初期段階の能力を評価しており、空間的認知の範囲は狭く、真の世界モデリングを要する課題にモデルを挑戦させる機会は極めて稀である。空間的スーパーセンシングの進展を促すため、本研究では2部構成のベンチマーク「VSI-SUPER」を提案する。すなわち、長期視覚的空間記憶(VSR: long-horizon visual spatial recall)と継続的視覚的空間数え上げ(VSC: continual visual spatial counting)の2つのタスクである。これらは任意に長大な動画入力を必要とするが、単なる文脈の無理な拡張には耐性がある。さらに、VSI-590Kのデータ収集とCambrian-Sの学習により、データスケーリングの限界を検証した結果、VSI-Benchにおいて30%以上の絶対的性能向上を達成しつつ、汎用性を損なわずに済んだ。しかしながら、VSI-SUPERにおける性能は依然として限界にとどまっていることから、単なるスケーリングでは空間的スーパーセンシングの実現は不十分であることが示された。そこで、本研究は「予測的センシング(predictive sensing)」を前進の道として提唱し、自己教師型の次フレーム予測器が予測誤差(驚き)を用いて記憶の構築とイベントのセグメンテーションを駆動する概念実証を提示する。VSI-SUPERにおける実験では、このアプローチは先進的なプロプライエタリなベースラインを大きく上回る性能を示し、空間的スーパーセンシングの実現には、単に「見る」ことではなく、「予測し」「選択し」「経験を組織化する」能力を備えたモデルが不可欠であることを示した。