Command Palette
Search for a command to run...
Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

要約
大規模言語モデルはインターネット規模のテキストデータを活用する一方で、実体化AI(Embodied AI)は物理的な軌道データ収集の極めて高いコストにより制約されている。デスクトップ環境、特にゲーム環境は、強力な代替手段として注目される。これらはスケールの大きなセンサモータ制御的インタラクションを提供しつつ、実体化学習に不可欠な構造的観測-行動連携を維持している。本研究では、デスクトップ上のインタラクションがロボティクスにおける実体化AIタスクのための効果的な事前学習基盤となり得ることを示す「D2E(Desktop to Embodied AI)」フレームワークを提案する。既存の研究が特定のドメインに限定されていた(例:Minecraft用のVPT)か、データを非公開にしていた(例:SIMA)のに対し、D2Eはスケーラブルなデスクトップデータ収集から、実体化ドメインにおける検証された転移までを包括するパイプラインを構築した。本フレームワークは以下の3つの構成要素からなる:(1)OWA Toolkit:多様なデスクトップインタラクションを統一された形式に変換し、152倍のデータ圧縮を実現するツールキット;(2)Generalist-IDM:タイムスタンプに基づくイベント予測により、未覧のゲーム間で強力なゼロショット一般化を達成し、インターネット規模の擬似ラベル付けを可能にするモデル;(3)VAPT:デスクトップで事前学習された表現を物理的な操作およびナビゲーションタスクに転移する手法。本研究では、1,300時間以上のデータ(人間のデモンストレーション:259時間、擬似ラベル付きプレイデータ:1,000時間以上)を用いて、LIBEROの操作タスクで96.6%、CANVASのナビゲーションタスクで83.3%の成功率を達成した。これらの結果は、デジタルインタラクションにおけるセンサモータ的素性が物理的な実体化タスクへの意味ある転移に十分な不変性を有することを実証し、デスクトップ事前学習がロボティクスにおける実用的な学習アプローチとして確立されることを示している。本研究で開発したすべての成果を公開する予定であり、OWA Toolkit、人間が収集したデータおよび擬似ラベル付きデータセット、VAPTで学習されたモデルを、https://worv-ai.github.io/d2e/ にて公開する。