16일 전

실키: 대규모 시각 언어 모델을 위한 선호도 정제

Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
실키: 대규모 시각 언어 모델을 위한 선호도 정제
초록

이 논문은 대규모 시각-언어 모델(LVLM)의 선호도 증류(Preference Distillation)를 탐구하며, 시각적 맥락에 기반한 유용하고 정확한 응답 생성 능력을 향상시키는 데 초점을 맞춘다. 먼저, AI 기반의 애너테이션을 활용해 시각-언어 피드백(VLFeedback) 데이터셋을 구축한다. 구체적으로, 다양한 데이터셋에서 수집한 다중 모달 지시사항을 기반으로 12개의 LVLM에서 샘플링한 모델들이 응답을 생성한다. 이후 GPT-4V를 사용하여 생성된 출력물의 유용성, 시각적 충실도, 윤리적 고려사항을 평가한다. 또한, 직접적 선호도 최적화(DPO) 방법을 통해 선호도 지도 정보를 Qwen-VL-Chat 모델로 증류한다. 최종적으로 개발된 모델인 Silkie는 MME 벤치마크에서 인지 능력과 인지 능력 측면에서 각각 6.9%, 9.5%의 상대적 성능 향상을 달성하였다. 또한 MMHal-Bench 벤치마크에서 3.02의 새로운 최고 기록을 세우며, 환각 현상이 감소한 것으로 나타났다. 추가 분석 결과, 본 연구에서 제안하는 VLFeedback 데이터셋을 활용한 DPO는 LVLM의 세부적인 인지 능력과 복잡한 인지 능력을 주로 강화하며, 인간 애너테이션 기반 선호도 데이터셋에 비해 더 포괄적인 성능 향상을 이끌어냈다.

실키: 대규모 시각 언어 모델을 위한 선호도 정제 | 최신 연구 논문 | HyperAI초신경