AIが生成する多様な3Dシナリオでロボットの訓練を革新
マサチューセッツ工科大学(MIT)のコンピュータサイエンスと人工知能研究所(CSAIL)とトヨタ研究所の研究チームが、ロボットの実世界での動作を訓練するための多様で現実的な仮想環境を生成する新技術「ステアブル・シーン生成(steerable scene generation)」を開発した。従来、ロボットの訓練にはリアルな動作データや手作業で作られた3Dシミュレーションが必要だったが、これらは時間とコストがかかり、物理法則を正確に再現できない問題があった。この新技術は、大規模な3D空間データ(4400万以上の3D部屋と家具・食器などのオブジェクトモデル)を学習した拡散モデル(diffusion model)を基に、ユーザーの指示に従ってリアルなシーンを自動生成する。特に、物理的な整合性を保ちながら、フォークが皿を貫通する「クリッピング」などの誤りを回避する点が特徴だ。 このシステムは、ゲームAI「AlphaGo」でも使われる「モンテカルロ木探索(MCTS)」を採用。AIが複数のシーン案を生成し、目的(例:物理的に正確な配置、食料品の多さ)に応じて最適なものを選ぶことで、訓練データを超える複雑さと多様性を持つシーンを創出。実験では、平均17個のオブジェクトを含むシーンに、MCTSで最大34個のアイテム(例:大量の点心)を追加する成功例も確認された。 ユーザーは自然言語で指示(例「テーブルに4つのりんごとボウルを置く」)を入力でき、98%の精度で pantry シェルフ、86%で乱雑な朝食台のシーンを正確に再現。既存手法(MiDiffusionやDiffuScene)より10%以上高い精度を達成した。また、既存のシーンに新しい配置を追加する「空白の埋め込み」も可能で、ロボットが実際の生活空間で物を扱う練習に役立つ。 研究チームは、この技術が「実世界に近い、タスクに合わせた多様な訓練環境」を効率的に生成できる点に意義を置く。今後は固定のオブジェクトライブラリにとどまらず、AIが完全に新しい物体や可動部品(例:開閉可能なキャビネット)を生成できるように発展させる予定。トヨタ研究所の研究者Rick Cory氏は、「このフレームワークは、ロボットのリアルな実装に向けた重要な一歩」と評価している。この研究は9月の「ロボット学習会議(CoRL)」で発表され、Amazonとトヨタ研究所の支援を受けて実施された。
