트라이, 로봇 학습 데이터 80% 줄여数百 작업 처리
토요타 연구소(TRI, Toyota Research Institute)는 최근 대규모 행동 모델(LBMs, Large Behavior Models)에 대한 획기적인 연구 결과를 발표했습니다. 이 연구는 로봇이 새로운 작업을 학습할 때 필요한 데이터의 양을 최대 80%까지 줄일 수 있으며, 단일 모델로 수백 가지 다른 조작 기술을 배울 수 있다는 점을 밝혔습니다. 해당 연구는 <대규모 행동 모델의 다중 작업 섬세한 조작 검증>(A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation)이라는 제목으로 arXiv에 게재되었습니다. 연구의 주 저자 중 한 명인 토요타 연구소 부사장이자 미국 MIT 교수인 러스 트래드레이크(Russ Tedrake)는 소셜 미디어에서 "LBMs는 정말 효과적입니다! 예훈련 데이터의 양이 늘어나면서 일관되고 통계적으로 유의미한 개선을 보았습니다."라고 밝혔�습니다. 전통적인 로봇 훈련 방법은 여러 제약이 있습니다. 각 작업은 개별적으로 프로그래밍되어야 하며, 학습 과정은 느리고 일관성이 부족하며, 종종 제한적으로 정의된 작업과 매우 제한된 환경에 국한됩니다. 반면, LBMs는 대형 언어 모델(LLMs, Large Language Models)과 유사한 아키텍처를 사용하지만, 로봇의 물리적 조작 행동에 특화되어 있습니다. TRI가 이번 연구에서 사용한 LBM 아키텍처는 확산 모델과 트랜스포머를 기반으로 하는 복잡한 신경망입니다. 이 모델은 다중 카메라(로봇 손목과 장면 카메라)에서 제공되는 시각 정보, 로봇의 자세와 위치 등의 본체 감지 데이터, 그리고 자연 언어로 주어지는 인간의 작업 지시를 통합하여, 로봇이 수행해야 할 연속적이고 정확한 동작 지령을 직접 출력합니다. 구체적으로, 이 모델은 1.6초에 해당하는 16개 시간 단계의 동작 시퀀스를 한 번에 예측하여 부드럽고 예측 가능한 조작을 실현합니다. 연구팀은 로봇 시연 데이터 약 1,700시간(내부 쌍팔다리 로봇 원격 조작 데이터 468시간, 시뮬레이션 원격 조작 데이터 45시간, 일반 조작 인터페이스(UMI, Universal Manipulation Interface) 데이터 32시간, Open X-Embodiment 데이터셋에서 추출한 인터넷 데이터 약 1,150시간)를 사용하여 여러 LBM을 훈련시켰습니다. 평가 과정에서는 29개의 다양한 작업을 포함하여 실제 세계 평가 시험이 1,800회, 시뮬레이션 시험이 47,000회 이상 진행되었습니다. 연구팀은 결과의 신뢰성을 보장하기 위해 맹검 A/B 테스트 방법을 채택했으며, 새로운 통계 평가 프레임워크를 구축하여 다양한 작업과 설정 간의 결과 신뢰도를 확보했습니다. 연구에 사용된 하드웨어 플랫폼은 Franka Panda FR3 쌍팔다리 조작 시스템으로, 최대 6개의 카메라(손목당 최대 2개, 장면용 2개)가 장착되어 있습니다. 감지 측면에서는 모델이事前训练的CLIP视觉变换器提取图像特征,并通过CLIP文本编码器处理任务描述的语言特征。这些视觉和语言特征与本体感受信息以及扩散时间步编码相结合,形成观察特征。在动作生成方面,LBMs使用去噪扩散隐式模型(DDIM, Denoising Diffusion Implicit Models)生成连续的机器人动作。通过K步迭代去噪过程,从高斯噪声样本开始,逐步生成精确的动作序列。 研究得出了三个主要发现。首先,微调后的LBMs在已知任务上的表现始终优于单任务基线模型。无论是在模拟环境还是现实环境中,微调的LBM在名义条件和分布偏移条件下都表现出统计学上的显著优势。其次,LBMs展现出更强的鲁棒性。在引入分布偏移时,尽管整体任务性能有所下降,但微调的LBMs比从零开始训练的策略表现出更强的适应能力。在模拟环境中,LBMs在分布偏移条件下统计上优于单任务策略的比例从名义条件下的3/16提高到了10/16。第三,也是最重要的发现是,LBMs能够显著减少学习新任务所需的数据量。研究表明,在模拟环境中要达到类似的性能水平,对LBM进行微调所需的数据量不到从零开始训练所需数据的30%。在实际任务中,LBM仅用15%的数据就能超越使用全部数据训练的单任务基线模型。 研究还验证了LBM的Scaling Law。通过使用不同比例的预训练数据,研究人员发现随着预训练数据量的增加,模型性能稳定提升。即使在当前的数据规模下,研究人员也没有发现性能的不连续性或急剧拐点,这表明人工智能扩展在机器人学习领域同样有效。为了测试LBM的能力极限,研究团队还设计了多种复杂的长期任务。例如,“切苹果”任务要求机器人使用苹果取芯器去除苹果核,从器具架中取出刀具,拔出刀鞘将苹果切成两半,再将两半切成片,最后用布擦拭刀具并重新装鞘放回器具架。在这类复杂任务中,LBMs同样展现了优于传统方法的性能。 这项研究的一个重要贡献是强调了统计严格性在机器人学习评估中的重要性。研究团队指出,许多机器人学习论文可能由于统计功效不足而测量的是统计噪声而非真实效果。他们展示了在不同试验次数和真实成功率下的置信区间宽度:以50次试验为例,得到的置信区间宽度通常为20%-30%的绝对成功率,这使得除了最大规模的效应之外,其他效应都无法可靠测量。为了解决这一问题,研究团队采用了贝叶斯分析方法,使用均匀Beta先验计算成功率的后验分布,并通过紧凑字母显示(CLD, Compact Letter Display)方法指示统计显著性。这种方法为机器人学习领域设立了新的评估标准。 研究结果表明,即使在数据规模相对较小的情况下,预训练也能带来一致的性能提升。这使得建立数据获取和性能提升的良性循环成为可能。随着更多任务被纳入预训练混合数据中,LBM的整体性能将持续平稳改善。然而,研究也发现了一些局限性。未经微调的预训练LBMs表现参差不齐,这部分归因于模型语言引导能力的局限性。研究团队表示,在内部测试中,更大的视觉-语言行为原型在克服这一困难方面显示出了良好的前景,但需要更多的工作来严格验证这一效果。此外,数据标准化等看似次要的设计选择对下游性能有着重大影响,往往超过架构或算法改进的影响,提醒研究者在比较方法时需要仔细隔离这些设计选择,避免混淆性能变化的来源。 업계 전문가들은 이 연구가 로봇학과 인공지능 분야에 중요한 영향을 미칠 것으로 평가하고 있습니다. TRI는 2015년 설립된 토요타의 연구 기관으로, 자율주행 차량, 로봇, 인공지능 등 다양한 분야에서 혁신적인 연구를 수행하고 있습니다. 이번 연구는 로봇이 더 효율적으로 새로운 작업을 배우고, 다양한 환경에서 안정적으로 성능을 발휘하도록 하는 데 큰 도움이 될 것으로 보입니다. 또한, 통계적 엄밀성의 강조는 로봇학 연구의 표준을 새롭게 설정함으로써, 향후 연구의 방향을 제시할 것입니다.