HyperAI超神経

10日前

MITの研究チームは、ロボットが時間と空間を人間と同様に理解し、自然言語で環境に関する複雑な質問に答えられる新たな長期記憶フレームワークDAAAMを開発した。本手法は最近開催されたコンピュータビジョンとパターン認識の国際会議CVPRで発表された。従来、ロボットのマッピング技術は広範囲の3D地図を作成できるものの物体の詳細な記述が不足し、一方、マルチモーダルビジョンモデルは物体を詳しく認識できるものの単一注釈に留まり処理速度も遅かった。MIT航空宇宙工学科のルーカ・カルローネ准教授らが開発したDAAAMは、両技術を融合させ、ロボットが移動中に環境内の物体を検出すると、関連する詳細な属性や文脈を3D地図上の対応位置に付与する。処理速度向上のため、類似オブジェクトをクラスタリングし、複数物体を並列で注釈付けできる最適化フレームを選択する仕組みを採用し、計算速度を10倍に向上させた。記憶情報の取得には、大規模言語モデルLLMに検索や位置特定などのツール呼び出し機能を統合し、事実誤認を抑制しつつ数秒以内に高精度な回答を返す。評価では、質問の種類に応じて既存手法よりも21％から53％高い精度を実現し、実環境でのリアルタイム運用を可能にした。本技術は、工場や倉庫での作業支援から、拡張現実ARを活用したインフラ保守や誘導システムまで幅広く応用が期待される。人間とロボットが協働するには、単なる座標データではなく、言語基盤の空間的理解が不可欠であると同准教授は指摘する。研究チームは今後、環境での出来事やイベントの記録機能の追加、回答時の確信度付与を進め、多様なタスクに対応可能な汎用ロボットエージェントの実現を目指す。本研究成果は米国陸軍研究局ARLと海軍研究局ONRより資金支援を受け実施された。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Command Palette

MITがロボット用長期空間記憶AIを開発

関連リンク

Command Palette

MITがロボット用長期空間記憶AIを開発

関連リンク

Command Palette

MITがロボット用長期空間記憶AIを開発

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。