HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Recherche Effectuée Dans Self-play

Date

il y a 4 jours

Organisation

Université de Pékin
Université Sun Yat-sen

URL de l'article

2510.18821

Le concept de Search Self-play (SSP) a été proposé en octobre 2025 par une équipe de recherche d'Abbabaquark, de l'Université de Pékin et de l'Université Sun Yat-sen. Les résultats de cette recherche ont été publiés dans un article. Recherche autonome : repousser les limites des capacités des agents sans supervision .

Dans Search Self-Game (SSP), le modèle linéaire à longue portée (LLM) objectif joue simultanément deux rôles alternés : créateur et résolveur de problèmes. Le créateur génère des requêtes de recherche profondes avec des réponses vérifiables et exactes, dont la difficulté augmente progressivement, tandis que le résolveur tente de répondre à ces requêtes par de multiples itérations de raisonnement et d'appels de recherche. Pour vérifier l'exactitude de chaque requête générée, les chercheurs collectent tous les résultats de recherche du créateur comme matériel externe, puis effectuent une génération par augmentation de la récupération (RAG) afin de vérifier si le résolveur peut prédire la réponse avec succès en utilisant toutes les informations nécessaires. Grâce à cette conception, l'agent de recherche profonde peut générer et résoudre de manière autonome des tâches d'entraînement de haute qualité, éliminant ainsi le besoin d'annotation et de vérification manuelles tout en préservant la précision des récompenses.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp