Command Palette
Search for a command to run...

초록
최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 로봇 조작을 위한 시각-언어-행동(Vision-Language-Action, VLA) 모델 분야에서 급속한 진전을 이끌어냈다. 현재의 대부분의 접근 방식은 효과적인 시나리오를 구현하고 있으나, 대부분 명시적인 지시에 의존하고 있다. 그러나 현실 세계의 상호작용에서는 인간이 직접적인 지시를 내리는 경우는 드물다. 따라서 효과적인 협업을 위해서는 로봇이 사용자의 의도를 사전에 추론할 수 있어야 한다. 본 연구에서는 사용자의 구두 대화, 환경 음향, 시각적 신호로부터 의도를 추출하는 새로운 설정인 ‘다중모달 맥락 지시’를 제안한다. 이 새로운 설정에 대응하기 위해, 의도 인식, 상호작용 확인, 행동 실행을 통합하는 엔드투엔드 옴니모달 LLM 기반의 ‘RoboOmni’ 프레임워크를 제시한다. RoboOmni는 시공간적으로 청각적 및 시각적 신호를 융합하여 강건한 의도 인식을 실현하며, 직접적인 음성 상호작용을 지원한다. 로봇 조작에서 사전적 의도 인식을 위한 훈련 데이터의 부재 문제를 해결하기 위해, 14만 개의 에피소드, 5,000명 이상의 화자, 2,400종 이상의 이벤트 사운드, 640종의 배경음, 6가지의 맥락 지시 유형을 포함하는 ‘OmniAction’ 데이터셋을 구축하였다. 시뮬레이션 및 실제 환경에서의 실험 결과, RoboOmni는 텍스트 기반 및 음성 인식(ASR) 기반 기준 모델 대비 성공률, 추론 속도, 의도 인식 정확도, 사전적 보조 능력에서 모두 우수한 성능을 보였다.