Command Palette
Search for a command to run...
셀프 플레이에서 검색됨
탐색 자기 플레이(Search Self-play, SSP)는 2025년 10월 아바바쿼크(Abbabaquark), 베이징대학교, 쑨얏센대학교 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문으로 발표되었습니다. 자율 플레이 검색: 감독 없이 에이전트 기능의 한계를 넓히다 .
검색 셀프 게임(Search Self-Game, SSP)에서 목표 LLM은 문제 생성자와 문제 해결자라는 두 가지 역할을 동시에 수행합니다. 문제 생성자는 검증 가능하고 정확한 답변을 포함하는 심층 검색 쿼리를 생성하며, 쿼리의 난이도는 점진적으로 증가합니다. 반면 해결자는 여러 차례의 추론 및 검색 호출을 통해 생성된 질문에 대한 답을 찾으려고 시도합니다. 생성된 각 쿼리의 정확성을 검증하기 위해 연구자들은 문제 생성자의 궤적에서 얻은 모든 검색 결과를 외부 자료로 수집한 후, 검색 증강 생성(Retrieval Augmentation Generation, RAG)을 수행하여 해결자가 필요한 모든 정보를 제공받았을 때 답변을 성공적으로 예측할 수 있는지 확인합니다. 이러한 설계를 통해 심층 검색 에이전트는 고품질 학습 작업을 자율적으로 생성하고 독립적으로 해결할 수 있으므로, 보상의 정확도를 유지하면서 수동 주석 및 검증의 필요성을 없앨 수 있습니다.