HyperAI

Les modèles de langage à grande échelle s’entraînent à partir de corpus pré-entraînement massifs, ce qui leur confère la capacité de résoudre un éventail croissant de tâches ; toutefois, malgré les efforts des chercheurs visant à améliorer ces jeux de données, peu d’efforts sont consacrés à comprendre l’efficacité du processus d’entraînement préalable dans l’extraction d’idées et de connaissances à partir des données. Dans ce travail, nous utilisons la génération augmentée par recherche (retrieval-augmented generation) combinée à l’exploitation de ressources de calcul au moment de l’évaluation (test-time compute) afin de mesurer la quantité de valeur du jeu de données laissée inutilisée par le processus d’entraînement préalable, et d’analyser comment cette situation évolue avec l’échelle. Nous démontrons que l’entraînement préalable suivi d’une recherche dans des jeux de données standards et largement open source permet d’obtenir des gains significatifs en précision sur MMLU, Math-500 et SimpleQA, lesquels se maintiennent même après décontamination. Pour MMLU, nous observons que la recherche agit comme un multiplicateur de calcul d’environ 5 fois par rapport à l’entraînement préalable seul. Nous montrons également que ces résultats peuvent être améliorés davantage en exploitant des ressources supplémentaires de calcul au moment de l’évaluation pour analyser le contexte récupéré, ce qui se traduit par une amélioration de 10 points de pourcentage sur MMLU pour le modèle public LLaMA 3.1 8B. Globalement, nos résultats suggèrent que les méthodes d’entraînement préalable actuelles n’exploitent pas pleinement l’information contenue dans les jeux de données pré-entraînement existants, laissant ainsi une marge importante pour de futurs progrès.

Réutiliser les données d'entraînement préalable au moment du test est un multiplicateur de calcul

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Réutiliser les données d'entraînement préalable au moment du test est un multiplicateur de calcul

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

Résumé

Construire l'IA avec l'IA

Hyper Newsletters