2달 전

ProVision: 다중 모드 언어 모델을 위한 프로그래밍적 비전 중심 지시 데이터 확장

Jieyu Zhang; Le Xue; Linxin Song; Jun Wang; Weikai Huang; Manli Shu; An Yan; Zixian Ma; Juan Carlos Niebles; Silvio Savarese; Caiming Xiong; Zeyuan Chen; Ranjay Krishna; Ran Xu
ProVision: 다중 모드 언어 모델을 위한 프로그래밍적 비전 중심 지시 데이터 확장
초록

다중 모드 응용 프로그램의 증가에 따라, 지시 데이터는 복잡한 이미지 기반 쿼리를 이해할 수 있는 다중 모드 언어 모델을 훈련시키는 데 중요한 역할을 하고 있습니다. 현재의 관행은 강력하지만 비용이 많이 드는 대형 언어 모델(LLMs) 또는 다중 모드 언어 모델(MLMs)을 사용하여 지시 데이터를 생성합니다. 이러한 방법들은 종종 환각(hallucinations), 라이선스 문제, 그리고 생성 과정이 확장性和 해석성이 부족하다는 단점이 있습니다. 본 연구에서는 시나리오 그래프를 이미지의 기호적 표현으로 활용하고 인간이 작성한 프로그램을 통해 체계적으로 시각 중심의 지시 데이터를 합성하는 프로그래밍 접근 방식을 제안합니다. 우리의 접근 방식은 데이터 생성 과정의 해석성과 제어성을 보장하며, 사실적 정확성을 유지하면서 효율적으로 확장됩니다. 24개의 단일 이미지, 14개의 다중 이미지 지시 생성기와 시나리오 그래프 생성 파이프라인을 구현하여, ProVision이라는 확장 가능하고 비용 효율적인 시스템을 구축했습니다. 이 시스템은 주어진 모든 이미지에 대해 객체, 속성, 관계, 깊이 등을 포함한 다양한 질문-답변 쌍을 생성합니다.Visual Genome 및 DataComp 데이터셋에 적용하여, 우리는 ProVision-10M이라는 1000만 개 이상의 지시 데이터 포인트를 생성하였으며, 이를 MLMs의 사전 훈련(pretraining) 및 지시 조정(instruction tuning) 단계에서 활용하였습니다. 지시 조정 단계에서 사용될 때, 우리의 단일 이미지 지시 데이터는 CVBench의 2D 분할에서 최대 7% 개선 효과를 보였으며, 3D 분할에서는 8% 개선 효과를 보였습니다. 또한 QBench2, RealWorldQA, MMMU에서 각각 3% 성능 향상을 이끌었습니다. 다중 이미지 지시 데이터는 Mantis-Eval에서 8% 성능 향상을 가져왔습니다. xGen-MM-4B의 사전 훈련 및 미세 조정(fine-tuning) 단계에 우리의 데이터를 통합하면, 11개 벤치마크에서 평균 1.6% 개선 효과를 얻었습니다.

ProVision: 다중 모드 언어 모델을 위한 프로그래밍적 비전 중심 지시 데이터 확장 | 최신 연구 논문 | HyperAI초신경