HyperAIHyperAI

Command Palette

Search for a command to run...

셀프 플레이에서 검색됨

날짜

5달 전

조직

알리바바 그룹
베이징 대학교
중산대학교

Paper URL

2510.18821

탐색 자기 플레이(Search Self-play, SSP)는 2025년 10월 아바바쿼크(Abbabaquark), 베이징대학교, 쑨얏센대학교 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문으로 발표되었습니다. 자율 플레이 검색: 감독 없이 에이전트 기능의 한계를 넓히다 .

검색 셀프 게임(Search Self-Game, SSP)에서 목표 LLM은 문제 생성자와 문제 해결자라는 두 가지 역할을 동시에 수행합니다. 문제 생성자는 검증 가능하고 정확한 답변을 포함하는 심층 검색 쿼리를 생성하며, 쿼리의 난이도는 점진적으로 증가합니다. 반면 해결자는 여러 차례의 추론 및 검색 호출을 통해 생성된 질문에 대한 답을 찾으려고 시도합니다. 생성된 각 쿼리의 정확성을 검증하기 위해 연구자들은 문제 생성자의 궤적에서 얻은 모든 검색 결과를 외부 자료로 수집한 후, 검색 증강 생성(Retrieval Augmentation Generation, RAG)을 수행하여 해결자가 필요한 모든 정보를 제공받았을 때 답변을 성공적으로 예측할 수 있는지 확인합니다. 이러한 설계를 통해 심층 검색 에이전트는 고품질 학습 작업을 자율적으로 생성하고 독립적으로 해결할 수 있으므로, 보상의 정확도를 유지하면서 수동 주석 및 검증의 필요성을 없앨 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp