날짜

7달 전

조직

Paper URL

2510.18821

태그

기계 학습

탐색 자기 플레이(Search Self-play, SSP)는 2025년 10월 아바바쿼크(Abbabaquark), 베이징대학교, 쑨얏센대학교 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문으로 발표되었습니다. 자율 플레이 검색: 감독 없이 에이전트 기능의 한계를 넓히다 .

검색 셀프 게임(Search Self-Game, SSP)에서 목표 LLM은 문제 생성자와 문제 해결자라는 두 가지 역할을 동시에 수행합니다. 문제 생성자는 검증 가능하고 정확한 답변을 포함하는 심층 검색 쿼리를 생성하며, 쿼리의 난이도는 점진적으로 증가합니다. 반면 해결자는 여러 차례의 추론 및 검색 호출을 통해 생성된 질문에 대한 답을 찾으려고 시도합니다. 생성된 각 쿼리의 정확성을 검증하기 위해 연구자들은 문제 생성자의 궤적에서 얻은 모든 검색 결과를 외부 자료로 수집한 후, 검색 증강 생성(Retrieval Augmentation Generation, RAG)을 수행하여 해결자가 필요한 모든 정보를 제공받았을 때 답변을 성공적으로 예측할 수 있는지 확인합니다. 이러한 설계를 통해 심층 검색 에이전트는 고품질 학습 작업을 자율적으로 생성하고 독립적으로 해결할 수 있으므로, 보상의 정확도를 유지하면서 수동 주석 및 검증의 필요성을 없앨 수 있습니다.

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

배포하면서 배우기

LWD는 범용 로봇이 지속적으로 경험을 수집하고 정책을 자체적으로 진화시킬 수 있도록 하는, 플릿 수준의 오프라인-온라인 강화 학습 프레임워크입니다.

2달 전

공간 이론

공간 이론은 지능형 에이전트가 불완전한 정보 환경에서 능동적인 탐색을 통해 공간적 믿음을 구성, 업데이트 및 활용하는 능력을 설명하는 틀을 의미합니다.

3달 전

덴스 리트리버

고밀도 검색 엔진은 방대한 문서 라이브러리에서 쿼리 의미와 가장 관련성이 높은 단락을 신속하게 찾아내는 역할을 하며, 검색 기능 향상 생성 시스템의 핵심 기반 구성 요소입니다.

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

날짜

7달 전

조직

Paper URL

2510.18821

태그

기계 학습

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

AI로 AI 구축

HyperAI Newsletters

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

AI로 AI 구축

HyperAI Newsletters

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

AI로 AI 구축

HyperAI Newsletters

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

Command Palette

셀프 플레이에서 검색됨

AI로 AI 구축

HyperAI Newsletters

Command Palette

셀프 플레이에서 검색됨

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

AI로 AI 구축

HyperAI Newsletters

Command Palette

셀프 플레이에서 검색됨

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

AI로 AI 구축

HyperAI Newsletters

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버

관련 위키

유도 사고 강화

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

배포하면서 배우기

공간 이론

덴스 리트리버