
要約
我々はSAM4Dを提案します。これは、カメラとLiDARストリーム間でプロンプト可能なセグメンテーションを行うためのマルチモーダルかつ時系列的な基盤モデルです。統合マルチモーダル位置エンコーディング(UMPE)が導入され、カメラとLiDARの特徴量を共有3D空間に合わせることで、モーダル間でのシームレスなプロンプティングと相互作用を可能にしています。さらに、運動認識クロスモーダルメモリアテンション(MCMA)を提案します。この手法は自己運動補償を利用し、時間的一貫性と長期的な特徴量取得を向上させ、動的に変化する自動運転シーンにおける堅牢なセグメンテーションを確保します。注釈作業のボトルネックを避けるため、VFM駆動型ビデオマスクレット、時空間4D再構成、およびクロスモーダルマスクレット融合をシナジーさせるマルチモーダル自動データエンジンを開発しました。このフレームワークは、人間による注釈よりも桁違いに高速でカメラ-LiDAR合わせた疑似ラベルを生成しながら、点群表現におけるVFM由来の意味論的忠実度を保ちます。Waymo-4DSeg上で広範な実験を行い、提案されたSAM4Dが強力なクロスモーダルセグメンテーション能力とデータ注釈における大きな潜在力を示すことを確認しました。