8ヶ月前

概要

私たちの脳は、視覚データストリームを背景と注目すべき物体にほぼ無意識に分解することができます。さらに、脳は物体の運動や相互作用を予測することができ、これは概念的な計画や推論において重要な能力です。最近のオブジェクト推論データセット（CATERなど）では、現在のビジョンベースAIシステムが明示的な物体表現、物体の持続性、およびオブジェクト推論に関して根本的な欠点を持っていることが明らかになりました。ここでは、自己監督型の位置と同一性追跡システム（Loci）を紹介します。このシステムはCATER追跡チャレンジで優れた性能を発揮します。Lociは脳内の背側経路と腹側経路に着想を得て、「何が」（what）と「どこにあるか」（where）をスロットごとに独立して符号化することで結合問題に対処します。Lociの予測コーディングのような処理は能動的な誤差最小化を促進し、各スロットが個々の物体を符号化する傾向があります。物体間の相互作用や物体の動態は分離された潜在空間で処理されます。時間遡及的バックプロパゲーションと前向き適合度累積を組み合わせることにより、学習速度が大幅に向上し、メモリ効率も改善されます。現行のベンチマークでの優れた性能だけでなく、Lociはビデオストリームから物体を効果的に抽出し、位置とゲシュタルト成分に分離することができます。私たちはこの分離が概念レベルでの効果的な計画と推論を容易にする表現を提供すると考えています。

ソースPDF