HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

Gesucht Aus Der Selbstspiel-App

Datum

vor 4 Tagen

Organisation

Peking-Universität
Sun Yat-sen-Universität

Paper-URL

2510.18821

Search Self-play (SSP) wurde im Oktober 2025 von einem Forschungsteam von Abbabaquark, der Peking-Universität und der Sun-Yat-sen-Universität vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in einem Artikel veröffentlicht. Selbstgesteuerte Suche: Die Grenzen der Agentenfähigkeiten ohne Aufsicht erweitern .

Im Search Self-Game (SSP) übernimmt das objektive LLM abwechselnd zwei Rollen: die des Problemerstellers und die des Problemlösers. Der Problemersteller generiert komplexe Suchanfragen mit verifizierbaren, korrekten Antworten, deren Schwierigkeitsgrad progressiv ansteigt. Der Problemlöser versucht, die generierten Fragen durch mehrere Runden von Schlussfolgerungen und Suchvorgängen zu beantworten. Um die Korrektheit jeder generierten Anfrage zu überprüfen, sammeln die Forschenden alle Suchergebnisse aus dem Suchverlauf des Problemerstellers als externes Material und führen anschließend Retrieval Augmentation Generation (RAG) durch. Dadurch wird geprüft, ob der Problemlöser die Antwort anhand aller notwendigen Informationen korrekt vorhersagen kann. Dank dieses Designs kann der Agent für die komplexe Suche autonom hochwertige Trainingsaufgaben generieren und diese selbstständig lösen. Dies eliminiert die Notwendigkeit manueller Annotation und Verifizierung und gewährleistet gleichzeitig die Genauigkeit der Belohnungen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp