Recherche Effectuée Dans Self-play
Le concept de Search Self-play (SSP) a été proposé en octobre 2025 par une équipe de recherche d'Abbabaquark, de l'Université de Pékin et de l'Université Sun Yat-sen. Les résultats de cette recherche ont été publiés dans un article. Recherche autonome : repousser les limites des capacités des agents sans supervision .
Dans Search Self-Game (SSP), le modèle linéaire à longue portée (LLM) objectif joue simultanément deux rôles alternés : créateur et résolveur de problèmes. Le créateur génère des requêtes de recherche profondes avec des réponses vérifiables et exactes, dont la difficulté augmente progressivement, tandis que le résolveur tente de répondre à ces requêtes par de multiples itérations de raisonnement et d'appels de recherche. Pour vérifier l'exactitude de chaque requête générée, les chercheurs collectent tous les résultats de recherche du créateur comme matériel externe, puis effectuent une génération par augmentation de la récupération (RAG) afin de vérifier si le résolveur peut prédire la réponse avec succès en utilisant toutes les informations nécessaires. Grâce à cette conception, l'agent de recherche profonde peut générer et résoudre de manière autonome des tâches d'entraînement de haute qualité, éliminant ainsi le besoin d'annotation et de vérification manuelles tout en préservant la précision des récompenses.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.