11일 전

대규모 생성형 시각-언어 모델의 조합성에 대한 고찰

Teli Ma, Rong Li, Junwei Liang
대규모 생성형 시각-언어 모델의 조합성에 대한 고찰
초록

대규모 언어 모델(Large Language Models, LLMs)의 성공에 힘입어, 다중모달 지시 조정(multimodal instruction tuning)을 통해 많은 생성형 시각-언어 모델(Generative Vision-Language Models, GVLMs)이 개발되었다. 그러나 GVLMs의 다중모달 복합 추론(compositional reasoning) 성능에 대한 연구는 여전히 부족한 실정이다. 본 논문에서는 GVLMs의 복합성 평가를 위한 평가 지표(예: VisualGPTScore 등)와 기존 벤치마크를 종합적으로 분석한다. 분석 결과, 기존 벤치마크에는 문법적 편향(syntactical bias)이 존재함을 확인하였으며, 이는 GVLM의 언어적 능력을 악용할 수 있는 요인으로 작용한다. 이러한 편향은 VisualGPTScore가 GVLM의 성능을 충분히 평가할 수 없는 이유가 된다. 이를 해결하기 위해 우리는 먼저 LLM을 활용하여 이러한 편향을 정량화하는 SyntaxBias Score를 제안한다. 이후 GVLM이 문법적 정확성에 내재된 경향성에 대해 얼마나 강건한지 평가할 수 있는 도전적인 새로운 작업(task)을 도입한다. 편향이 보정된 데이터셋과 새로운 작업을 기반으로, 우리는 새로운 벤치마크인 ‘문법적 편향 제거 벤치마크(SyntActically DE-biased benchmark, SADE)’를 제안한다. 본 연구는 GVLM의 복합성에 대한 편향 없는 평가 기준을 제시함으로써, 향후 관련 분야의 연구를 촉진할 수 있을 것으로 기대된다. (코드 및 데이터셋은 https://github.com/TeleeMa/SADE 에서 공개됨)

대규모 생성형 시각-언어 모델의 조합성에 대한 고찰 | 최신 연구 논문 | HyperAI초신경