7일 전

로보LLM: 다중모달 대규모 언어모델 기반의 로봇 비전 작업

Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
로보LLM: 다중모달 대규모 언어모델 기반의 로봇 비전 작업
초록

로봇 시각 응용 분야는 물체 탐지, 세분화, 식별과 같은 다양한 시각 인식 작업을 자주 요구한다. 이러한 개별 작업들에 대해 이미 상당한 기술 발전이 이루어졌지만, 전문적인 모델들을 통합된 시각 처리 파이프라인에 통합하는 것은 큰 공학적 도전과 비용을 수반한다. 최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 다양한 후행 작업을 위한 새로운 핵심 기반으로 부상하고 있다. 우리는 MLLMs의 사전 훈련된 능력을 활용함으로써, 특정 작업용 인코더를 필요로 하지 않는 단순화된 프레임워크를 구축할 수 있음을 주장한다. 특히 MLLMs에 사전 훈련된 대규모 지식이 존재함으로써, 후행 로봇 시각 작업으로의 미세 조정이 보다 용이해지고, 더 우수한 성능을 달성할 수 있다. 본 연구에서는 BEiT-3 기반의 RoboLLM 프레임워크를 제안하며, 실제 창고 환경을 다루는 대규모 로봇 조작 데이터셋인 ARMBench 챌린지에서 모든 시각 인식 작업을 해결한다. RoboLLM은 기존의 벤치마크를 뛰어넘는 성능을 보이며, 모델 선택 및 튜닝과 관련된 공학적 부담도 크게 줄였다. 소스 코드는 공개되어 있으며, https://github.com/longkukuhi/armbench 에서 확인할 수 있다.

로보LLM: 다중모달 대규모 언어모델 기반의 로봇 비전 작업 | 최신 연구 논문 | HyperAI초신경