HyperAIHyperAI

Command Palette

Search for a command to run...

문서 검색 증강 생성 평가를 위한 올바른 방향에 있는가?

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 복잡한 문서 이해 분야에서 큰 잠재력을 보이고 있으나, 그 발전은 부족한 평가 체계로 인해 심각하게 저해되고 있다. 기존의 평가 벤치마크는 문서 RAG 시스템의 특정 부분에 집중하고 있으며, 완전한 지시사항과 증거 레이블이 부족한 합성 데이터를 사용하기 때문에 실제 환경에서의 한계와 도전 과제를 충분히 반영하지 못하고 있다. 이러한 한계를 극복하기 위해 우리는 Double-Bench를 도입한다. 이는 대규모, 다국어, 다중모달 평가 시스템으로, 문서 RAG 시스템 내 각 구성 요소에 대해 세밀한 평가를 가능하게 한다. Double-Bench는 총 3,276건의 문서(72,880페이지), 6개 언어와 4종류의 문서 유형을 기반으로 한 5,168개의 단일 및 다단계 질문을 포함하며, 데이터 오염 가능성을 고려한 동적 업데이트 기능을 통합하여 운영 효율성을 높였다. 모든 질문은 증거 페이지를 철저히 스캔하여 생성되었으며, 전문 인력의 검증을 거쳐 최고 수준의 품질과 완전성을 보장한다. 9개의 최신 임베딩 모델, 4개의 MLLM, 4개의 엔드투엔드 문서 RAG 프레임워크를 대상으로 수행한 포괄적인 실험 결과, 텍스트 기반과 시각 기반 임베딩 모델 간의 성능 격차가 점차 좁혀지고 있음을 확인했으며, 이는 강력한 문서 검색 모델 개발의 필요성을 강조한다. 또한, 현재의 문서 RAG 프레임워크가 증거 없이도 답을 제시하려는 과도한 자신감을 보이는 ‘과신 문제(over-confidence dilemma)’가 존재함을 밝혀냈다. 본 연구에서 공개한 완전한 오픈소스 Double-Bench가 향후 고도화된 문서 RAG 시스템 연구를 위한 엄격한 기반을 제공하기를 기대한다. 향후 연간 단위로 최신 코퍼스를 지속적으로 수집하고, 새로운 벤치마크를 정기적으로 공개할 계획이다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
문서 검색 증강 생성 평가를 위한 올바른 방향에 있는가? | 문서 | HyperAI초신경