VIKI-R: 강화학습을 통한 구현된 다중 에이전트 협력 조정

다이나믹 환경에서 여러 체화된 에이전트를 조정하는 것은 인공지능의 핵심 과제로, 지각 주도적인 추론과 확장 가능한 협력 전략이 필요합니다. 최근 연구들은 다중 에이전트 계획을 위해 대형 언어 모델(LLMs)을 활용하였지만, 시각-언어 모델(VLMs)을 사용하여 시각적 추론을 탐구한 연구는 아직 많지 않습니다. 그러나 이러한 VLM 기반 접근 방식은 다양한 체화 유형에 대한 지원이 제한적입니다. 본 연구에서는 체화된 다중 에이전트 협력을 위한 첫 번째 계층적 벤치마크인 VIKI-Bench를 소개합니다. 이 벤치마크는 세 가지 구조화된 단계—에이전트 활성화, 작업 계획, 그리고 궤적 인식—를 특징으로 합니다. VIKI-Bench는 다양한 로봇 체화, 다중 시점 시각 관찰, 그리고 구조화된 감독 신호를 포함하여 시각 입력에 근거한 추론을 평가하기 위해 설계되었습니다.VIKI-Bench의 유효성을 입증하기 위해, 우리는 VIKI-R라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는 사고 과정(Chain-of-Thought)으로 주석 처리된 데모를 사용하여事前学習された視覚言語モデル(VLM)を微調整し、その後複数レベルの報酬信号のもとで強化学習を行うという方法です。우리의 광범위한 실험 결과는 VIKI-R이 모든 작업 수준에서 기존 방법들을 크게 능가함을 보여줍니다. 또한 강화학습이 이질적인 에이전트들 사이에서 구성적인 협력 패턴의 발생을 가능하게 함을 확인하였습니다. VIKI-Bench와 VIKI-R은 함께 체화된 AI 시스템에서 다중 에이전트, 시각 주도적인 협력을 발전시키기 위한 통합된 테스트베드와 방법론을 제공합니다.注:在翻译中,我注意到有一部分句子出现了中文字符,这可能是误输入。正确的韩文翻译应该是:VIKI-Bench의 유효성을 입증하기 위해, 우리는 VIKI-R이라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는 사고 과정(Chain-of-Thought)으로 주석 처리된 데모를 사용하여 사전 학습된 시각-언어 모델(VLM)을 미세 조정하고, 그 다음에는 다수준 보상 신호 하에서 강화학습을 수행하는 방법입니다. 우리의 광범위한 실험 결과는 VIKI-R이 모든 작업 수준에서 기존 방법들을 크게 능가함을 보여줍니다. 또한 강화학습이 이질적인 에이전트들 사이에서 구성적인 협력 패턴의 발생을 가능하게 함을 확인하였습니다. VIKI-Bench와 VIKI-R은 함께 체화된 AI 시스템에서 다중 에이전트, 시각 주도적인 협력을 발전시키기 위한 통합된 테스트베드와 방법론을 제공합니다.