
要約
順次的なシーケンスや非順序の画像集合から濃密な3Dシーン再構成を行うことは、コンピュータビジョンの研究を実践的な状況に導入する際の重要なステップです。DUSt3Rによって導入されたパラダイムに従い、画像ペアを共有座標系に統合することで、その後の手法はより多くの画像からの濃密な3D再構成を達成するために暗黙の記憶を維持しています。しかし、このような暗黙の記憶は容量が限定されており、初期フレームの情報損失に悩まされる可能性があります。そこで我々はPoint3Rというオンラインフレームワークを提案します。これは、現在のシーンの3D構造と直接関連付けられた明示的な空間ポインタメモリを維持することを目指しています。このメモリ内の各ポインタには特定の3D位置が割り当てられ、グローバル座標系における近傍のシーン情報を変動する空間特徴量に集約します。最新フレームから抽出された情報は、このポインタメモリと明示的に相互作用し、現在の観測結果をグローバル座標系に濃密に統合することが可能になります。我々はこの相互作用を促進するために3D階層的位置埋め込みを設計し、また単純かつ効果的な融合機構を設計して、ポインタメモリが均一で効率的であることを確保しました。我々の方法は低学習コストで様々なタスクにおいて競争力のあるまたは最先端の性能を達成しています。コードは以下のURLで利用可能です: this https URL.