5달 전

MMDU: 다중 턴 다중 이미지 대화 이해 벤치마크 및 LVLMs를 위한 지시문 조정 데이터셋

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

초록

다중 모드 인간 입력에 대해 자연스럽고 의미 있는 응답을 생성하는 것은 대형 시각-언어 모델(LVLM)의 기본적인 기능입니다. 현재 오픈 소스 LVLM들은 단일 턴 단일 이미지 입력과 같은 간단한 시나리오에서 유망한 성능을 보여주지만, 긴 컨텍스트 역사와 다중 턴 및 다중 이미지를 포함하는 실제 대화 상황에서는 부족합니다. 기존의 LVLM 벤치마크는 주로 단일 선택 질문이나 짧은 형태의 응답에 초점을 맞추고 있어, 실제 인간-AI 상호작용 애플리케이션에서 LVLM들의 능력을 충분히 평가하지 못하고 있습니다. 따라서, 우리는 다중 턴 및 다중 이미지 대화를 평가하고 개선하기 위해 설계된 포괄적인 벤치마크인 MMDU와 대규모 지시 조정 데이터셋인 MMDU-45k를 소개합니다. 우리는 클러스터링 알고리즘을 사용하여 오픈 소스 위키백과에서 관련 이미지와 텍스트 설명을 찾아내고, GPT-4o 모델의 도움으로 인간 주석자들이 질문-응답 쌍을 구성했습니다. MMDU는 최대 18,000개의 이미지+텍스트 토큰, 20개의 이미지, 그리고 27번의 턴을 포함하며, 이는 이전 벤치마크보다 최소 5배 이상 길어 현재 LVLM들에게 도전 과제를 제시합니다. MMDU를 사용하여 15개의 대표적인 LVLM들을 깊이 있게 분석한 결과, 오픈 소스 LVLM들이 제한된 대화 지시 조정 데이터로 인해 비공개 소스 모델들에 비해 뒤처짐을 확인할 수 있었습니다. 우리는 MMDU-45k에서 미세 조정(fine-tuning)된 오픈 소스 LVLM들이 이 격차를 크게 해소하며, 더 길고 정확한 대화를 생성하고, MMDU와 기존 벤치마크(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%) 점수를 개선했다는 것을 입증하였습니다. 우리의 기여는 현재 LVLM 모델들과 실제 애플리케이션 요구 사항 사이의 격차를 줄이는 데 중요한 역할을 합니다. 이 프로젝트는 https://github.com/Liuziyu77/MMDU에서 이용 가능합니다.

코드 저장소

liuziyu77/mmdu

공식

pytorch

GitHub에서 언급됨

벤치마크

벤치마크	방법론	지표
visual-question-answering-on-mm-vet	InternLM-XC2 + MMDU-45k	GPT-4 score: 38.8

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette