7 天前
RoboLLM:基于多模态大语言模型的机器人视觉任务
Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa

摘要
机器人视觉应用通常需要执行多种视觉感知任务,例如目标检测、分割与识别等。尽管这些单项任务近年来取得了显著进展,但将专用模型整合进统一的视觉处理流程仍面临重大的工程挑战与成本压力。近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)作为下游任务的新一代骨干架构崭露头角。我们认为,利用MLLM在大规模预训练中所具备的泛化能力,能够构建一个简化的统一框架,从而避免为不同任务设计专用编码器的复杂性。具体而言,MLLM中蕴含的大规模预训练知识使其在微调至下游机器人视觉任务时更为便捷,并能实现更优的性能表现。为此,我们提出了RoboLLM框架,采用BEiT-3作为主干网络,全面应对ARMBench挑战赛中的各类视觉感知任务——该挑战赛基于真实仓库场景的大型机器人操作数据集。实验结果表明,RoboLLM不仅显著优于现有基线方法,还大幅降低了模型选型与调优带来的工程负担。相关源代码已公开,地址为:https://github.com/longkukuhi/armbench。