HyperAI초신경
9일 전

WebShaper: 정보 탐색을 통한 에이전트적 데이터 생성 형식화

Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
WebShaper: 정보 탐색을 통한 에이전트적 데이터 생성 형식화
초록

대형 언어 모델(Large Language Model, LLM) 기반의 에이전트(Agent)의 등장은 웹 기반 정보 탐색(Information-seeking, IS) 기능을 통해 복잡하고 개방적인 작업에 대한 해결책을 가능하게 함으로써 인공지능 분야를 혁신적으로 변화시켰다. 고품질의 학습 데이터의 부족은 IS 에이전트의 개발에 한계를 초래하였다. 기존의 접근 방식은 일반적으로 정보 중심의 모델을 채택하며, 먼저 웹 데이터를 수집하고, 이후에 검색된 정보를 바탕으로 질문을 생성하는 방식을 취한다. 그러나 이는 정보 구조와 추론 구조, 질문과 답변 간의 불일치를 유발할 수 있다. 이를 완화하기 위해 우리는 집합론을 통해 IS 작업을 체계적으로 형식화하는 WebShaper라는 형식화 중심의 IS 데이터 생성 프레임워크를 제안하여 데이터셋을 구축하였다. WebShaper의 핵심은 지식 투영(Knowledge Projections, KP)이라는 개념으로, KP 연산 조합을 통해 추론 구조를 정밀하게 제어할 수 있다. 데이터 생성 과정에서는 먼저 시드 작업(seed tasks)을 생성한 후, 여러 단계에 걸친 확장 과정을 거친다. 각 단계에서 에이전트형 확장기(agentic Expander)가 우리의 형식화에 기반한 정보 검색 및 검증 도구를 사용하여 현재의 형식화된 질문을 더 복잡하게 확장한다. 우리는 생성된 데이터셋을 기반으로 모델을 훈련시켰으며, 실험 결과는 WebShaper가 GAIA 및 WebWalkerQA 벤치마크에서 오픈소스 IS 에이전트 중 최상의 성능을 달성함을 보여주었다.