Command Palette
Search for a command to run...
Duolin Sun Dan Yang Yue Shen Yihan Jiao Zhehao Tan Jie Feng Lianzhen Zhong Jian Wang Peng Wei Jinjie Gu

초록
검색 보강 생성(Retrieval-Augmented Generation, RAG) 기법은 대규모 언어 모델(Large Language Models, LLMs)과 정보 검색(Information Retrieval, IR) 기술을 결합함으로써 질문-응답 시스템 및 대화 생성 작업의 성능을 향상시킨다. 이 전략은 외부 지식 기반에서 정보를 검색하여 생성 모델의 응답 능력을 강화하는 방식으로, 일정한 성과를 거두었다. 그러나 현재의 RAG 기법은 다단계 쿼리(multi-hop queries) 처리 시 여전히 많은 도전에 직면해 있다. 예를 들어, 일부 접근법은 반복적 검색에 과도하게 의존하여 복합 쿼리 처리에 지나치게 많은 검색 단계를 소모한다. 또한, 원래의 복잡한 쿼리를 그대로 검색에 사용할 경우, 특정 하위 쿼리와 관련된 내용을 정확히 포착하지 못해 노이즈가 포함된 검색 결과를 초래할 수 있다. 이러한 노이즈가 적절히 관리되지 않으면 노이즈 누적 문제로 이어질 수 있다. 이러한 문제를 해결하기 위해 우리는 다양한 복잡도의 문제를 효율적으로 처리할 수 있도록 설계된 히우리스틱 기반의 새로운 프레임워크인 HANRAG를 제안한다. 강력한 탐지기(revelator)를 기반으로 HANRAG는 쿼리를 라우팅하고 하위 쿼리로 분해하며, 검색된 문서에서 노이즈를 필터링한다. 이를 통해 시스템의 적응성과 노이즈에 대한 저항력을 향상시켜 다양한 유형의 쿼리 처리에 뛰어난 능력을 발휘한다. 제안한 프레임워크를 다양한 벤치마크에서 주요 산업 기법들과 비교 분석한 결과, 단일 단계(single-hop) 및 다단계(multi-hop) 질문-응답 작업 모두에서 뛰어난 성능을 입증하였다.