11일 전

LLaVA-Plus: 도구 사용 능력 학습을 통한 다중모달 에이전트 생성

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li

논문 세부 정보 보기

LLaVA-Plus: 도구 사용 능력 학습을 통한 다중모달 에이전트 생성

초록

LLaVA-Plus는 대규모 다중모달 모델의 능력을 확장하는 일반 목적의 다중모달 보조 시스템이다. 이 시스템은 사전 훈련된 비전 및 비전-언어 모델의 기술 리포지토리를 유지하며, 사용자의 입력에 따라 관련 도구를 활성화하여 현실 세계의 작업을 수행할 수 있다. LLaVA-Plus는 다중모달 지시 수행 데이터를 기반으로 훈련되어 도구 사용 능력을 습득하였으며, 시각적 이해, 생성, 외부 지식 검색, 조합 등 다양한 기능을 포함한다. 실증 결과에 따르면, LLaVA-Plus는 기존 기능에서 LLaVA를 능가하며 새로운 기능을 보여준다. 특히 이미지 쿼리가 인간-인공지능 상호작용 전체 과정에서 직접적으로 기반화되고 능동적으로 참여되기 때문에 독특하며, 이는 도구 사용 성능을 크게 향상시키고 새로운 응용 시나리오를 가능하게 한다.