Date

il y a 2 mois

Organisation

URL du document

2510.18821

Balises

Apprentissage Automatique

Le concept de Search Self-play (SSP) a été proposé en octobre 2025 par une équipe de recherche d'Abbabaquark, de l'Université de Pékin et de l'Université Sun Yat-sen. Les résultats de cette recherche ont été publiés dans un article. Recherche autonome : repousser les limites des capacités des agents sans supervision .

Dans Search Self-Game (SSP), le modèle linéaire à longue portée (LLM) objectif joue simultanément deux rôles alternés : créateur et résolveur de problèmes. Le créateur génère des requêtes de recherche profondes avec des réponses vérifiables et exactes, dont la difficulté augmente progressivement, tandis que le résolveur tente de répondre à ces requêtes par de multiples itérations de raisonnement et d'appels de recherche. Pour vérifier l'exactitude de chaque requête générée, les chercheurs collectent tous les résultats de recherche du créateur comme matériel externe, puis effectuent une génération par augmentation de la récupération (RAG) afin de vérifier si le résolveur peut prédire la réponse avec succès en utilisant toutes les informations nécessaires. Grâce à cette conception, l'agent de recherche profonde peut générer et résoudre de manière autonome des tâches d'entraînement de haute qualité, éliminant ainsi le besoin d'annotation et de vérification manuelles tout en préservant la précision des récompenses.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 2 mois

Organisation

URL du document

2510.18821

Balises

Apprentissage Automatique

Associé Wiki

Machine De Huxley-Gödel

Le modèle approxime la machine de Gödel dans un environnement d'agent de codage et guide l'expansion par le biais d'un échantillonnage de Thompson avec une planification adaptative.

il y a 2 mois

Modèle De Diffusion Potentielle SVG

Le format SVG permet un entraînement de diffusion plus rapide, un échantillonnage efficace en quelques étapes et une qualité de génération améliorée.

il y a 2 mois

Flux De Travail multi-agents CudaForge

CudaForge est un flux de travail multi-agents simple, efficace et peu coûteux pour la génération et l'optimisation de noyaux CUDA.

il y a 2 mois

Cadre De Génération De Données DexFlyWheel

DexFlyWheel est un paradigme de génération de données évolutif et auto-améliorant pour les opérations agiles.

il y a 3 mois

Ingénierie Du Contexte Agentique

ACE permet aux agents de s'améliorer en optimisant dynamiquement le contexte d'entrée.

il y a 3 mois

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Un nouveau cadre d'optimisation de contraintes discriminatives basé sur des principes évite les biais de difficulté et l'instabilité de l'apprentissage.

il y a 2 mois

Méthode De post-formation DiDi-Instruct

Le premier cadre à appliquer avec succès la distillation de correspondance de distribution à la génération de texte basée sur MDM, établissant un record dans la génération de séquences linguistiques en quelques étapes.

il y a 2 mois

Paradigme De Diffusion Coopérative Autorégressive SDAR

SDAR établit un nouveau paradigme pratique de modélisation du langage qui unifie les avantages complémentaires de l'autorégression et de la diffusion.

il y a 2 mois

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

L’AEPO se concentre sur l’équilibrage et la rationalisation des branches d’extension de stratégie et des mises à jour de stratégie sous la direction d’appels d’outils à haute entropie.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Recherche Effectuée Dans Self-play

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Recherche Effectuée Dans Self-play

Associé Wiki

Machine De Huxley-Gödel

Modèle De Diffusion Potentielle SVG

Flux De Travail multi-agents CudaForge

Cadre De Génération De Données DexFlyWheel

Ingénierie Du Contexte Agentique

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Méthode De post-formation DiDi-Instruct

Paradigme De Diffusion Coopérative Autorégressive SDAR

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Recherche Effectuée Dans Self-play

Associé Wiki

Machine De Huxley-Gödel

Modèle De Diffusion Potentielle SVG

Flux De Travail multi-agents CudaForge

Cadre De Génération De Données DexFlyWheel

Ingénierie Du Contexte Agentique

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Méthode De post-formation DiDi-Instruct

Paradigme De Diffusion Coopérative Autorégressive SDAR

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Wiki

Machine De Huxley-Gödel

Modèle De Diffusion Potentielle SVG

Flux De Travail multi-agents CudaForge

Cadre De Génération De Données DexFlyWheel

Ingénierie Du Contexte Agentique

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Méthode De post-formation DiDi-Instruct

Paradigme De Diffusion Coopérative Autorégressive SDAR

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Associé Wiki

Machine De Huxley-Gödel

Modèle De Diffusion Potentielle SVG

Flux De Travail multi-agents CudaForge

Cadre De Génération De Données DexFlyWheel

Ingénierie Du Contexte Agentique

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Méthode De post-formation DiDi-Instruct

Paradigme De Diffusion Coopérative Autorégressive SDAR

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO