Command Palette
Search for a command to run...

초록
다중 모드 인간 입력에 대해 자연스럽고 의미 있는 응답을 생성하는 것은 대형 시각-언어 모델(LVLM)의 기본적인 기능입니다. 현재 오픈 소스 LVLM들은 단일 턴 단일 이미지 입력과 같은 간단한 시나리오에서 유망한 성능을 보여주지만, 긴 컨텍스트 역사와 다중 턴 및 다중 이미지를 포함하는 실제 대화 상황에서는 부족합니다. 기존의 LVLM 벤치마크는 주로 단일 선택 질문이나 짧은 형태의 응답에 초점을 맞추고 있어, 실제 인간-AI 상호작용 애플리케이션에서 LVLM들의 능력을 충분히 평가하지 못하고 있습니다. 따라서, 우리는 다중 턴 및 다중 이미지 대화를 평가하고 개선하기 위해 설계된 포괄적인 벤치마크인 MMDU와 대규모 지시 조정 데이터셋인 MMDU-45k를 소개합니다. 우리는 클러스터링 알고리즘을 사용하여 오픈 소스 위키백과에서 관련 이미지와 텍스트 설명을 찾아내고, GPT-4o 모델의 도움으로 인간 주석자들이 질문-응답 쌍을 구성했습니다. MMDU는 최대 18,000개의 이미지+텍스트 토큰, 20개의 이미지, 그리고 27번의 턴을 포함하며, 이는 이전 벤치마크보다 최소 5배 이상 길어 현재 LVLM들에게 도전 과제를 제시합니다. MMDU를 사용하여 15개의 대표적인 LVLM들을 깊이 있게 분석한 결과, 오픈 소스 LVLM들이 제한된 대화 지시 조정 데이터로 인해 비공개 소스 모델들에 비해 뒤처짐을 확인할 수 있었습니다. 우리는 MMDU-45k에서 미세 조정(fine-tuning)된 오픈 소스 LVLM들이 이 격차를 크게 해소하며, 더 길고 정확한 대화를 생성하고, MMDU와 기존 벤치마크(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%) 점수를 개선했다는 것을 입증하였습니다. 우리의 기여는 현재 LVLM 모델들과 실제 애플리케이션 요구 사항 사이의 격차를 줄이는 데 중요한 역할을 합니다. 이 프로젝트는 https://github.com/Liuziyu77/MMDU에서 이용 가능합니다.
코드 저장소
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |