華為ノア・アーク研究所チームなどが、ロボット OS と大規模言語モデルを統合した新しいフレームワークを発表し、自然言語による制御を実現。
ロンドンにある華為ノアの箱舟研究所、ダルムシュタット工科大学、スイス連邦工科大学チューリッヒ校の研究チームは、自然言語での指示をロボットの具体的な動作に変換する新フレームワーク「ROS-LLM」を「ネイチャー・マシーン・インテリジェンス」誌に発表しました。この手法は、大量のテキストデータで学習した大規模言語モデルと、ロボット制御の事実上の標準である ROS を統合したものです。研究リーダーのクリストファー・E・モワー氏らは、自律ロボットが人間の言葉を理解して信頼性の高い物理動作を行う能力の向上を目的としてこの開発を行いました。 フレームワークは、ユーザーの指示を大規模言語モデルが解析し、実行可能なステップに分解して計画を立てます。この計画をロボットが実行する際、2 つの方式をサポートします。1 つは大規模言語モデルが ROS で直接実行できるコード断片を生成する「インラインコード」方式、もう 1 つは行動の順序と失敗時の代替案を整理する「行動決定木」方式です。このエージェントは、模倣学習を通じて新しい基本スキルを習得し、人間や環境からのフィードバックに基づいて自動的に最適化と修正を継続します。 実験では、さまざまなタスクや環境条件下でこのフレームワークがテストされました。その結果、ロボットは指示に従って着席の片付けや動的なタスク最適化、遠隔監視制御など多様な課題を解決する能力を示し、頑健性や拡張性が確認されました。注目すべき点は、これらの成果がすべてオープンソースの事前学習済み大規模言語モデルのみを用いて達成されたことです。研究チームは完全な実装コードを無料で公開しており、これにより将来のロボット開発が加速すると期待されています。今後はさらに複雑なタスクや動的な環境での実証が検討される予定であり、ロボット制御ソフトウェアと大規模言語モデルを連携させる新たなソリューションの潮流を促す可能性があります。
