HyperAIHyperAI

Command Palette

Search for a command to run...

RoboLLM:マルチモーダル大規模言語モデルに基づくロボット視覚タスク

Zijun Long George Killick Richard McCreadie Gerardo Aragon Camarasa

概要

ロボットビジョンの応用においては、物体検出、セグメンテーション、識別など多様な視覚認識タスクを実現する必要がある。これらの個別タスクについては、近年著しい進展が見られつつあるが、専用モデルを統合的なビジョンパイプラインに組み込むことは、大きなエンジニアリング上の課題とコストを伴う。近年、マルチモーダル大規模言語モデル(MLLM)が、さまざまな下流タスクの新たな基盤として注目されている。本研究では、MLLMの事前学習能力を活用することで、タスク特化型エンコーダーの必要性を低減し、簡素化されたフレームワークの構築が可能であると主張する。具体的には、MLLMに事前学習された大規模な知識を活かすことで、下流のロボットビジョンタスクへの微調整が容易となり、優れた性能が得られる。本研究では、BEiT-3をバックボーンとして採用したRoboLLMフレームワークを提案する。このフレームワークは、現実の倉庫環境を対象とした大規模なロボット操作データセット「ARMBench challenge」におけるすべての視覚認識タスクに対応する。RoboLLMは既存のベースラインを上回る性能を発揮するだけでなく、モデル選定やパラメータチューニングに伴うエンジニアリング負荷も大幅に軽減する。ソースコードは公開されており、https://github.com/longkukuhi/armbench から入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています