2달 전

LLaVA-OneVision: 시각적 작업 전송의 용이성

Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li

초록

우리는 LLaVA-NeXT 블로그 시리즈를 통해 데이터, 모델, 그리고 시각적 표현에 대한 우리의 통찰력을 집대성하여 개발한 오픈 대형 다중모달 모델(LMM)군인 LLaVA-OneVision을 소개합니다. 실험 결과는 LLaVA-OneVision이 단일 이미지, 다중 이미지, 그리고 비디오의 세 가지 중요한 컴퓨터 비전 시나리오에서 오픈 LMM의 성능 한계를 동시에 확장하는 첫 번째 단일 모델임을 입증합니다. 특히, LLaVA-OneVision의 설계는 다양한 모달/시나리오 간 강력한 전이 학습을 가능하게 하여 새로운 능력들이 나타나도록 합니다. 단일 이미지에서 비디오로의 작업 전이를 통해 강력한 비디오 이해能力和跨场景能力(비디오 이해能力和跨场景能力)가 입증되었습니다.注：在最后一句中，“비디오 이해能力和跨场景能力”中的“能力和”是中文，可能是原文中的误植。正确的韩文应该是“비디오 이해 및 cross-scenario 능력”。以下是修正后的版本：특히, 단일 이미지에서 비디오로의 작업 전이를 통해 강력한 비디오 이해 및 cross-scenario 능력이 입증되었습니다.