10일 전
문서 히스테이크: 긴 컨텍스트 다중모달 이미지/문서 이해를 위한 비전 LLM 벤치마크
Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur

초록
다양한 모달리티를 통합하는 대규모 언어 모델의 확산은 서로 다른 모달리티로부터 오는 복잡한 데이터 입력을 분석하고 이해하는 능력을 크게 향상시켰다. 그러나 장문의 문서 처리는 적절한 벤치마크의 부족으로 인해 여전히 탐색이 부족한 영역이다. 이를 해결하기 위해 우리는 시각적 요소가 풍부한 장문 문서에 대한 비전-언어 모델(VLMs)의 성능을 평가할 수 있도록 설계된 종합적인 벤치마크인 Document Haystack을 제안한다. Document Haystack은 5~200페이지에 이르는 문서를 포함하며, 문서의 다양한 깊이에 순수 텍스트 또는 다중 모달리티(텍스트+이미지) 형태의 '침입 요소(needles)'를 전략적으로 삽입하여 VLM의 검색 능력을 시험한다. 총 400개의 문서 변형과 8,250개의 질문을 포함하며, 객관적이고 자동화된 평가 프레임워크를 기반으로 한다. 본 연구에서는 Document Haystack 데이터셋의 구축 과정과 특징을 상세히 설명하고, 주요 VLM들의 실험 결과를 제시하며, 이 분야의 잠재적인 연구 방향성을 논의한다.