HyperAIHyperAI

Command Palette

Search for a command to run...

SAM4D: カメラとLiDARストリームで何でもセグメンテーション

Jianyun Xu Song Wang Ziqian Ni Chunyong Hu Sheng Yang Jianke Zhu Qiang Li

概要

我々はSAM4Dを提案します。これは、カメラとLiDARストリーム間でプロンプト可能なセグメンテーションを行うためのマルチモーダルかつ時系列的な基盤モデルです。統合マルチモーダル位置エンコーディング(UMPE)が導入され、カメラとLiDARの特徴量を共有3D空間に合わせることで、モーダル間でのシームレスなプロンプティングと相互作用を可能にしています。さらに、運動認識クロスモーダルメモリアテンション(MCMA)を提案します。この手法は自己運動補償を利用し、時間的一貫性と長期的な特徴量取得を向上させ、動的に変化する自動運転シーンにおける堅牢なセグメンテーションを確保します。注釈作業のボトルネックを避けるため、VFM駆動型ビデオマスクレット、時空間4D再構成、およびクロスモーダルマスクレット融合をシナジーさせるマルチモーダル自動データエンジンを開発しました。このフレームワークは、人間による注釈よりも桁違いに高速でカメラ-LiDAR合わせた疑似ラベルを生成しながら、点群表現におけるVFM由来の意味論的忠実度を保ちます。Waymo-4DSeg上で広範な実験を行い、提案されたSAM4Dが強力なクロスモーダルセグメンテーション能力とデータ注釈における大きな潜在力を示すことを確認しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SAM4D: カメラとLiDARストリームで何でもセグメンテーション | 記事 | HyperAI超神経