HyperAI초신경
7일 전

RAVine: 실제와 일치하는 평가: 에이전트 검색을 위한

Yilong Xu; Xiang Long; Zhi Zheng; Jinhua Gao
RAVine: 실제와 일치하는 평가: 에이전트 검색을 위한
초록

업무형 검색(Agentic search)은 더 자율적이고 적응적인 검색 증강 파라다임으로, 지능형 검색 시스템의 진화를 주도하고 있다. 그러나 기존의 평가 프레임워크는 업무형 검색의 목표와 잘 부합하지 못하고 있다. 첫째, 현재 벤치마크에서 자주 사용되는 복잡한 쿼리는 일반적인 사용자 검색 시나리오와 벗어나는 경우가 많다. 둘째, 이전의 접근 방식은 종단간(end-to-end) 평가를 위해 진실값(ground truth)을 추출할 때 노이즈를 도입하는 경향이 있어, 세부적인 수준에서 평가가 왜곡될 수 있다. 셋째, 대부분의 현재 프레임워크는 최종 답변의 품질에만 초점을 맞추고 있으며, 업무형 검색에 내재된 반복적 과정의 평가를 간과하고 있다. 이러한 한계를 해결하기 위해, 검색 기능을 갖춘 업무형 대규모 언어 모델(Agentic LLMs)을 위한 현실에 부합하는 평가 프레임워크인 RAVine(Reality-Aligned eValuation framework)을 제안한다. RAVine은 사용자의 의도를 더 잘 반영하는 다점 쿼리 및 장문형 답변을 대상으로 하며, 세부적인 평가의 정확도를 향상시키기 위한 인과적 진실값 구성 전략을 도입한다. 또한, RAVine은 모델이 반복적 과정 동안 검색 도구와 상호작용하는 방식을 평가하고, 효율성과 관련된 요소를 고려한다. RAVine을 통해 여러 모델을 벤치마크하고, 몇 가지 통찰을 도출하였다. 이 연구가 업무형 검색 시스템의 발전에 기여하기를 기대한다. 코드와 데이터셋은 https://github.com/SwordFaith/RAVine에서 확인할 수 있다.