7日前

RoboLLM：マルチモーダル大規模言語モデルに基づくロボット視覚タスク

Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa

要約

ロボットビジョンの応用においては、物体検出、セグメンテーション、識別など多様な視覚認識タスクを実現する必要がある。これらの個別タスクについては、近年著しい進展が見られつつあるが、専用モデルを統合的なビジョンパイプラインに組み込むことは、大きなエンジニアリング上の課題とコストを伴う。近年、マルチモーダル大規模言語モデル（MLLM）が、さまざまな下流タスクの新たな基盤として注目されている。本研究では、MLLMの事前学習能力を活用することで、タスク特化型エンコーダーの必要性を低減し、簡素化されたフレームワークの構築が可能であると主張する。具体的には、MLLMに事前学習された大規模な知識を活かすことで、下流のロボットビジョンタスクへの微調整が容易となり、優れた性能が得られる。本研究では、BEiT-3をバックボーンとして採用したRoboLLMフレームワークを提案する。このフレームワークは、現実の倉庫環境を対象とした大規模なロボット操作データセット「ARMBench challenge」におけるすべての視覚認識タスクに対応する。RoboLLMは既存のベースラインを上回る性能を発揮するだけでなく、モデル選定やパラメータチューニングに伴うエンジニアリング負荷も大幅に軽減する。ソースコードは公開されており、https://github.com/longkukuhi/armbench から入手可能である。