HyperAI초신경
17일 전

비전 지도 조각화가 필요한 전부입니다: 다중 모달 문서 이해를 활용한 RAG 강화

Tripathi, Vishesh ; Odapally, Tanmay ; Das, Indraneel ; Allu, Uday ; Ahmed, Biddwan
비전 지도 조각화가 필요한 전부입니다: 다중 모달 문서 이해를 활용한 RAG 강화
초록

검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템은 정보 검색과 질문 응답 분야에서 혁신을 일으켰지만, 전통적인 텍스트 기반 분할 방법들은 복잡한 문서 구조, 다중 페이지 표, 삽입된 그림, 그리고 페이지 경계를 넘어서는 문맥 의존성을 처리하는 데 어려움을 겪고 있습니다. 본 연구에서는 대형 다모달 모델(Large Multimodal Models, LMMs)을 활용하여 PDF 문서를 배치로 처리하면서 의미적 일관성과 구조적 무결성을 유지하는 새로운 다모달 문서 분할 접근법을 제시합니다. 제안된 방법은 구성 가능한 페이지 배치로 문서를 처리하며, 배치 간 문맥을 보존함으로써 여러 페이지에 걸친 표, 삽입된 시각적 요소, 절차적 내용 등을 정확하게 처리할 수 있게 합니다. 우리는 수작업으로 작성된 쿼리를 포함하는 큐레이션된 PDF 문서 데이터셋을 사용하여 이 접근법의 성능을 평가하였으며, 분할 품질과 후속 RAG 성능의 개선을 입증하였습니다. 시각 지도 접근법은 전통적인 일반 RAG 시스템보다 더 나은 정확도를 달성하였으며, 질적 분석 결과는 문서 구조와 의미적 일관성의 우수한 보존력을 보여주었습니다.