16일 전

LOVA3: 시각 질문에 대한 답변, 질문 생성 및 평가 학습하기

Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou
LOVA3: 시각 질문에 대한 답변, 질문 생성 및 평가 학습하기
초록

질문 응답, 질문 제기, 평가 능력은 세계를 이해하고 지식을 습득하는 데 필수적인 인간의 본질적 특성이다. 이러한 능력을 강화함으로써 인간은 데이터를 더 효과적으로 활용할 수 있으며, 이는 이해력과 학습 성과의 향상으로 이어진다. 현재의 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 주로 질문 응답에 초점을 맞추고 있으며, 질문 제기 및 평가 능력의 잠재력을 충분히 활용하지 못하고 있다. 인간의 학습 메커니즘을 영감으로 삼아, 우리는 '시각적 질문 응답, 질문 제기 및 평가를 위한 학습(Learning tO Visual Question Answering, Asking and Assessment)'을 목표로 하는 혁신적인 프레임워크 LOVA3를 제안한다. 이 프레임워크는 MLLMs가 질문 제기와 평가 능력을 갖출 수 있도록 지원하기 위해, 두 가지 보완적인 학습 과제인 GenQA와 EvalQA를 도입한다. 질문 제기 능력을 향상시키기 위해, 다모달 기초 과제의 포괄적인 세트를 구성하였으며, 평가 능력 향상을 위해 새로운 벤치마크인 EvalQABench를 제안하였다. EvalQABench는 총 64,000개의 학습 샘플(긍정 및 부정 샘플이 각각 절반씩 분포)과 5,000개의 검증 및 테스트 샘플을 포함하고 있다. 본 연구는 MLLMs가 질문에 응답하고, 질문을 제기하며, 질문을 평가할 수 있는 능력을 갖추게 되면, 다모달 이해 능력이 향상되어 종합적인 성능이 개선될 것이라고 주장한다. 이 가설을 검증하기 위해, LOVA3 프레임워크를 기반으로 MLLMs를 훈련하고 다양한 다모달 데이터셋 및 벤치마크에서 평가하였다. 실험 결과는 일관된 성능 향상을 보였으며, 질문 응답, 제기, 평가 능력 향상이 MLLMs의 종합적 지능 발전에 핵심적인 역할을 함을 입증하였다. 코드는 https://github.com/showlab/LOVA3 에서 공개되어 있다.

LOVA3: 시각 질문에 대한 답변, 질문 생성 및 평가 학습하기 | 최신 연구 논문 | HyperAI초신경