3日前

STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成

Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成
要約

本稿では、点群マップ予測をデコーダーのみのTransformer問題に再定式化する新しい3D再構成手法「STream3R」を提案する。現在の多視点再構成における最先端手法は、いずれも高コストなグローバル最適化に依存しているか、シーケンス長が増加するにつれて性能が著しく低下する単純なメモリ機構に依存している。これに対して、STream3Rは、現代の言語モデルの進展にインスパイアされ、因果的アテンション(causal attention)を用いて画像シーケンスを効率的に処理するストリーミングフレームワークを導入する。大規模な3Dデータセットから幾何学的事前知識を学習することで、従来の手法がしばしば失敗する動的シーンを含む多様かつ困難な状況においても、良好な汎化性能を発揮する。広範な実験の結果、本手法は静的シーンおよび動的シーンの両方において、既存手法を一貫して上回ることが確認された。さらに、STream3RはLLM(大規模言語モデル)スタイルの学習インフラと本質的に互換性があり、さまざまな下流の3Dタスクに対して効率的な大規模事前学習および微調整が可能である。本研究の成果は、因果的Transformerモデルがオンライン3D認識に有効である可能性を示しており、ストリーミング環境におけるリアルタイム3D理解への道を開くものである。詳細はプロジェクトページにてご確認ください:https://nirvanalan.github.io/projects/stream3r。

STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成 | 最新論文 | HyperAI超神経