HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Calculer en tant que professeur : transformer le calcul d'inférence en supervision sans référence

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

Calculer en tant que professeur : transformer le calcul d'inférence en supervision sans référence

Résumé

D’où proviennent les signaux d’apprentissage lorsqu’aucune vérité terrain n’est disponible après l’entraînement ? Nous proposons de transformer l’exploration en supervision grâce à Compute as Teacher (CaT), une méthode qui convertit l’exploration propre du modèle effectuée au moment de l’inférence en une supervision sans référence. Cela s’obtient en synthétisant une seule référence à partir d’un ensemble de trajectoires parallèles, puis en optimisant le modèle vers cette référence. Plus précisément, la politique actuelle génère un ensemble de trajectoires ; un modèle ancré (la politique initiale), figé, corrige les omissions et les contradictions afin d’estimer une référence, transformant ainsi le calcul supplémentaire effectué à l’inférence en un signal d’enseignement. Ce signal est ensuite converti en récompenses selon deux régimes : (i) pour les tâches vérifiables, on utilise une équivalence programmée sur les réponses finales ; (ii) pour les tâches non vérifiables, on utilise des critères auto-proposés (binaires, vérifiables), évalués par un jugement indépendant d’un modèle de langage (LLM), avec une récompense calculée comme la fraction de critères satisfaits. Contrairement aux méthodes de sélection (meilleur parmi N, majorité, perplexité ou scores de juges), la synthèse peut différer de la majorité et être correcte même si toutes les trajectoires sont fausses ; la performance augmente avec le nombre de trajectoires. En tant que procédure exécutée au moment de l’inférence, CaT améliore les modèles Gemma 3 4B, Qwen 3 4B et Llama 3.1 8B (jusqu’à +27 % sur MATH-500 ; +12 % sur HealthBench). En combinaison avec l’apprentissage par renforcement (CaT-RL), nous obtenons des gains supplémentaires (jusqu’à +33 % et +30 %), le modèle entraîné dépassant ainsi le signal d’enseignement initial.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Calculer en tant que professeur : transformer le calcul d'inférence en supervision sans référence | Articles de recherche | HyperAI