Command Palette

Search for a command to run...

7일 전

MVI-Bench: LVLMs의 오도적 시각 입력에 대한 강건성 평가를 위한 종합 벤치마크

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench: LVLMs의 오도적 시각 입력에 대한 강건성 평가를 위한 종합 벤치마크

초록

대규모 시각-언어 모델(LVLM)의 견고성(evaluation of robustness)을 평가하는 것은 실세계 응용 분야에서의 지속적인 개발과 책임감 있는 도입을 위해 필수적이다. 그러나 기존의 견고성 벤치마크는 주로 환각(hallucination)이나 오도하는 텍스트 입력에 초점을 맞추고 있으며, 시각적 이해 평가에서 동등하게 중요한 오도하는 시각적 입력의 도전 과제는 대부분 간과하고 있다. 이러한 중요한 공백을 메우기 위해, 우리는 LVLM의 견고성을 약화시키는 오도하는 시각적 입력(misleading visual inputs)에 대한 평가를 전담하는 최초의 종합적 벤치마크인 MVI-Bench를 제안한다. MVI-Bench는 기본적인 시각적 원천(primitives)에 기반하여, 오도하는 시각적 입력의 세 가지 계층적 수준인 시각적 개념(Visual Concept), 시각적 속성(Visual Attribute), 시각적 관계(Visual Relationship)에 중점을 두고 설계되었다. 이 분류 체계를 기반으로, 6개의 대표적 범주를 선정하고, 전문가가 정교하게 주석을 달아 1,248개의 VQA(Vision-Question Answering) 인스턴스를 구성하였다. 더 나아가, 세부적인 견고성 평가를 가능하게 하기 위해, LVLM의 견고성을 미세한 수준에서 특성화하는 새로운 지표인 MVI-Sensitivity를 도입하였다. 18개의 최신 LVLM에 대한 실험 결과는 오도하는 시각적 입력에 대한 뚜렷한 취약성을 드러내었으며, MVI-Bench를 통한 심층적 분석은 보다 신뢰성 있고 견고한 LVLM 개발을 위한 실질적인 통찰을 제공한다. 본 벤치마크와 코드베이스는 https://github.com/chenyil6/MVI-Bench에서 접근할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MVI-Bench: LVLMs의 오도적 시각 입력에 대한 강건성 평가를 위한 종합 벤치마크 | 연구 논문 | HyperAI초신경