HyperAIHyperAI

Command Palette

Search for a command to run...

MITがAIで「物理的に正確な仮想世界」を生成する新技術を発表、ロボットの訓練データを飛躍的に進化

麻省理工学院(MIT)のコンピュータサイエンスと人工知能研究所(CSAIL)とトヨタ研究機構の共同研究チームが、ロボットの実世界適応能力を高めるための「可控シーン生成」技術を発表した。この新技術は、AIを活用して家庭や工場で実際に使用されるような、物理的に正確かつ多様な3D仮想環境をプログラムで生成できる。これまで、ロボットの訓練には実際の動作データが必要だったが、その収集は時間とコストがかかり、再現性も難しかった。一方、従来のAI生成シミュレーションは物理法則を無視するなど、現実離れした結果をもたらすことが多かった。 今回の「可控シーン生成」は、拡散モデル(diffusion model)を基盤に、モンテカルロ木探索(MCTS)と強化学習を組み合わせたアプローチで、物理的に整合した複雑なシーンを構築する。この技術は4400万以上の3D部屋データで訓練され、テーブルや皿、食器など日常的なオブジェクトを自然に配置できる。特に、MCTSにより、シーンの構成を段階的に最適化し、たとえば「34個もの物体を重ねて置く」ような複雑な状況でも、物体が重なり合う「穿模」(clipping)を回避する。実験では、平均17個のオブジェクトを含む訓練データを上回る、多様でリアルなシーンを生成可能だった。 ユーザーは自然言語による指示(例:「テーブルに碗と4つのリンゴを置く」)でシーンを制御でき、精度は食品棚の構成で98%、朝食のテーブルで86%を達成。これは、MiDiffusionやDiffuSceneといった既存手法を10%以上上回る成果だ。また、既存のシーンに新たな要素を追加する「インペイント」機能により、同じオブジェクトを使って異なるレイアウトを自動生成することも可能。 研究チームは、この技術が「訓練データの分布を超える」新しいシーンの生成を可能にし、ロボットが実世界で直面する多様な状況を効率的に学べると強調する。今後は、可動部品(開閉可能な引き出しや缶)やインターネット画像から抽出した新たな物体の導入を計画。さらに、コミュニティベースのデータ拡張により、大規模なロボット訓練データセットの構築を目指す。 専門家は、このアプローチが「現実世界に近い物理的整合性」を保ちつつ、大量かつ多様なシミュレーション環境を自動生成できる点で画期的と評価。Amazon Roboticsの応用科学者Jeremy Binagia氏は「従来の2D配置や視覚言語モデルに比べ、3D空間の回転や移動を考慮した生成は、ロボットの実用化に大きな前進」と指摘。トヨタ研究機構のRick Cory氏も「未知の状況を生成できる点が、リアルロボットの実装において重要な里程碑になる」と期待を寄せている。

関連リンク