Command Palette

Search for a command to run...

6일 전

인터랙트컴프: 모호한 질의를 활용한 검색 에이전트 평가

인터랙트컴프: 모호한 질의를 활용한 검색 에이전트 평가

초록

언어 기반 에이전트는 웹 검색 및 정보 검색 분야에서 놀라운 잠재력을 보여주었다. 그러나 이러한 검색 에이전트는 사용자의 질의가 완전하고 모호성이 없음을 전제로 하며, 현실과는 거리가 있다. 실제로 사용자는 모호하거나 불완전한 초기 질의로부터 시작하여 상호작용을 통해 명확화해야 하는 경우가 많다. 그러나 대부분의 에이전트는 검색 과정 중 상호작용 기제를 갖추지 못해 있으며, 기존의 평가 기준 역시 이러한 능력을 평가할 수 없다. 이 격차를 보완하기 위해 우리는 검색 에이전트가 질의의 모호성을 인식하고 검색 도중 능동적으로 상호작용하여 이를 해결할 수 있는지를 평가할 수 있도록 설계된 'InteractComp'라는 벤치마크를 제안한다. '확인이 용이하고, 모호성을 해소하기 위해 상호작용을 유도하는' 원칙에 따라, 9개의 도메인에 걸쳐 210개의 전문가가 검토한 질문을 타겟-방해 요소(지향-방해) 방법론을 활용해 구성하였으며, 이는 오직 상호작용을 통해만 해결 가능한 진정한 모호성을 창출한다. 17개 모델에 대한 평가 결과, 극심한 실패가 드러났다. 완전한 맥락이 제공된 경우 71.50%의 정확도를 달성한 최고 성능 모델도, 실제 상호작용이 필요한 시나리오에서는 단 13.73%의 정확도에 그쳤으며, 이는 추론적 한계보다는 체계적인 과신(overconfidence)이 문제임을 시사한다. 강제적인 상호작용을 유도한 경우, 성능 향상이 급격히 발생함으로써, 기존 전략이 활용하지 못하는 잠재적 능력이 존재함을 입증한다. 장기적 분석 결과, 검색 성능은 15개월 동안 7배 이상 향상된 반면, 상호작용 능력은 정체된 것으로 나타나, 이는 핵심적인 약점이 있음을 드러낸다. 이러한 정체성은 검색 작업에 내재된 즉각적인 피드백 특성과 결합되어, InteractComp가 검색 에이전트의 상호작용 능력 평가 및 훈련에 있어 귀중한 자원이 되는 이유가 된다. 코드는 https://github.com/FoundationAgents/InteractComp 에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
인터랙트컴프: 모호한 질의를 활용한 검색 에이전트 평가 | 연구 논문 | HyperAI초신경