Command Palette
Search for a command to run...
문서 검색 증강 생성 평가를 위한 올바른 방향에 있는가?
문서 검색 증강 생성 평가를 위한 올바른 방향에 있는가?
Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin
초록
다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 복잡한 문서 이해 분야에서 큰 잠재력을 보이고 있으나, 그 발전은 부족한 평가 체계로 인해 심각하게 저해되고 있다. 기존의 평가 벤치마크는 문서 RAG 시스템의 특정 부분에 집중하고 있으며, 완전한 지시사항과 증거 레이블이 부족한 합성 데이터를 사용하기 때문에 실제 환경에서의 한계와 도전 과제를 충분히 반영하지 못하고 있다. 이러한 한계를 극복하기 위해 우리는 Double-Bench를 도입한다. 이는 대규모, 다국어, 다중모달 평가 시스템으로, 문서 RAG 시스템 내 각 구성 요소에 대해 세밀한 평가를 가능하게 한다. Double-Bench는 총 3,276건의 문서(72,880페이지), 6개 언어와 4종류의 문서 유형을 기반으로 한 5,168개의 단일 및 다단계 질문을 포함하며, 데이터 오염 가능성을 고려한 동적 업데이트 기능을 통합하여 운영 효율성을 높였다. 모든 질문은 증거 페이지를 철저히 스캔하여 생성되었으며, 전문 인력의 검증을 거쳐 최고 수준의 품질과 완전성을 보장한다. 9개의 최신 임베딩 모델, 4개의 MLLM, 4개의 엔드투엔드 문서 RAG 프레임워크를 대상으로 수행한 포괄적인 실험 결과, 텍스트 기반과 시각 기반 임베딩 모델 간의 성능 격차가 점차 좁혀지고 있음을 확인했으며, 이는 강력한 문서 검색 모델 개발의 필요성을 강조한다. 또한, 현재의 문서 RAG 프레임워크가 증거 없이도 답을 제시하려는 과도한 자신감을 보이는 ‘과신 문제(over-confidence dilemma)’가 존재함을 밝혀냈다. 본 연구에서 공개한 완전한 오픈소스 Double-Bench가 향후 고도화된 문서 RAG 시스템 연구를 위한 엄격한 기반을 제공하기를 기대한다. 향후 연간 단위로 최신 코퍼스를 지속적으로 수집하고, 새로운 벤치마크를 정기적으로 공개할 계획이다.