Command Palette
Search for a command to run...

초록
현재의 시각-언어-행동(Vision-Language-Action, VLA) 모델은 정적인 상호작용 패러다임에 억제되며, 환경을 동시에 시각적으로 인지하고, 음성을 듣고, 말하고, 행동하는 능력이 부족할 뿐만 아니라 실시간 사용자 간섭을 동적으로 처리할 수 없다. 이는 원활한 몸체 기반 협업을 방해하여 유연하지 않고 반응성이 낮은 사용자 경험을 초래한다. 이러한 한계를 극복하기 위해, 본 연구에서는 행동의 동시성과 거의 실시간 간섭 처리를 가능하게 하는 새로운 몸체 기반 상호작용 프레임워크인 VITA-E를 제안한다. 본 연구의 핵심은 두 개의 병렬 VLA 인스턴스를 '활성 모델(Active Model)'과 '대기 모델(Standby Model)'로 운영하는 이중 모델 아키텍처이다. 이를 통해 몸체 기반 에이전트는 환경을 관찰하고, 사용자의 음성을 듣고, 구어 응답을 제공하며, 행동을 실행하는 모든 과정을 동시에 수행할 수 있으며, 간섭이 가능해 인간의 다중 작업 능력을 모방할 수 있다. 또한, 모델을 제어자로 활용하는 '모델-제어자(모델-as-controller)' 패러다임을 제안한다. 이는 VLM(비전-언어 모델)을 미세 조정하여 특수 토큰을 생성하게 하여, 시스템 레벨의 직접 명령어로 활용되도록 하는 방식으로, 모델의 추론과 시스템의 행동을 유기적으로 연결한다. 물리적 인공지능 휴머노이드 플랫폼에서 수행한 실험 결과, VITA-E는 복잡한 상호작용 시나리오를 안정적으로 처리할 수 있음을 입증하였다. 본 프레임워크는 다양한 이중 시스템 VLA 모델과 호환되며, 긴급 정지 및 음성 간섭 상황에서 매우 높은 성공률을 달성함과 동시에, 음성과 행동의 동시 수행도 성공적으로 수행할 수 있다. 이는 더 자연스럽고 강력한 몸체 기반 보조자 구현을 위한 중요한 전환점이 될 수 있다.