HyperAIHyperAI

Command Palette

Search for a command to run...

문서 히스테이크: 긴 컨텍스트 다중모달 이미지/문서 이해를 위한 비전 LLM 벤치마크

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

초록

다양한 모달리티를 통합하는 대규모 언어 모델의 확산은 서로 다른 모달리티로부터 오는 복잡한 데이터 입력을 분석하고 이해하는 능력을 크게 향상시켰다. 그러나 장문의 문서 처리는 적절한 벤치마크의 부족으로 인해 여전히 탐색이 부족한 영역이다. 이를 해결하기 위해 우리는 시각적 요소가 풍부한 장문 문서에 대한 비전-언어 모델(VLMs)의 성능을 평가할 수 있도록 설계된 종합적인 벤치마크인 Document Haystack을 제안한다. Document Haystack은 5~200페이지에 이르는 문서를 포함하며, 문서의 다양한 깊이에 순수 텍스트 또는 다중 모달리티(텍스트+이미지) 형태의 '침입 요소(needles)'를 전략적으로 삽입하여 VLM의 검색 능력을 시험한다. 총 400개의 문서 변형과 8,250개의 질문을 포함하며, 객관적이고 자동화된 평가 프레임워크를 기반으로 한다. 본 연구에서는 Document Haystack 데이터셋의 구축 과정과 특징을 상세히 설명하고, 주요 VLM들의 실험 결과를 제시하며, 이 분야의 잠재적인 연구 방향성을 논의한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
문서 히스테이크: 긴 컨텍스트 다중모달 이미지/문서 이해를 위한 비전 LLM 벤치마크 | 문서 | HyperAI초신경