Distillation d'IA : Comment Réduire les Modèles et Diminuer les Coûts sans Perdre en Précision
Distillation : Technique Pour Réduire la Taille et le Coût des Modèles IA En début d'année, l'entreprise chinoise DeepSeek a fait sensation avec la sortie de son chatbot R1. Ce dernier a attiré l'attention pour son performances comparables à celles des chatbots des plus grands acteurs de l'IA, comme OpenAI, tout en utilisant une fraction seulement du pouvoir de calcul et du coût. Cette annonce a eu un impact majeur sur le marché financier, provoquant une chute des actions de nombreuses entreprises technologiques occidentales. Le lendemain de l'annonce, Nvidia, le fabricant des puces utilisées pour exécuter les modèles d'IA les plus performants, a perdu plus de valeur en bourse en une journée que n'importe quelle autre entreprise dans l'histoire. Controverse et Clarifications L'annonce de DeepSeek a également été entourée de controverses, avec des sources suggérant que l'entreprise avait obtenu, sans autorisation, des connaissances issues du modèle o1 d'OpenAI grâce à une technique appelée distillation. Cette possibilité a été largement relayée par les médias, suggérant que DeepSeek avait trouvé une nouvelle méthode révolutionnaire pour développer des modèles d'IA plus efficaces. Cependant, la distillation, ou distillation de connaissances, est en réalité une technique bien établie et largement utilisée dans le domaine de l’IA depuis plus d'une décennie. Origine et Concept de la Distillation Le concept de distillation a été introduit en 2015 par trois chercheurs de Google, dont Geoffrey Hinton, considéré comme le "grand-père de l'IA" et futur lauréat du prix Nobel en 2024. À l'époque, les chercheurs utilisaient souvent des ensembles de modèles pour améliorer leurs performances, mais cette approche était très complexe et coûteuse. Ils ont alors commencé à réfléchir à comment transmettre l'information entre les modèles de manière plus efficace. L'idée était de distiller les connaissances d'un grand modèle "enseignant" vers un plus petit modèle "élève", qui pourrait ainsi apprendre plus rapidement et de manière plus précise. La clé de ce processus réside dans l'utilisation de "cibles douces" au lieu de réponses définitives. Par exemple, si un grand modèle identifie une image avec une probabilité de 30% pour un chien, de 20% pour un chat, de 5% pour une vache et de 0,5% pour une voiture, il révèle que les chiens et les chats sont assez similaires, tandis que les voitures et les vaches sont plus distinctes. Ces probabilités permettent au modèle petit et plus simple d'apprendre plus efficacement. Hinton a qualifié cette information de "connaissance sombre", faisant une analogie avec la matière noire en cosmologie. Retombées et Adaptations Malgré son potentiel, la première publication sur la distillation a été rejetée lors d'une conférence. Vinyals, l'un des auteurs, a alors temporairement mis de côté ce sujet. Cependant, la technique est arrivée à un moment crucial. Vers cette période, les ingénieurs réalisaient que plus de données d'entraînement alimentaient les réseaux neuronaux, plus ils devenaient performants. La taille des modèles a donc explosé, tout comme leurs capacités, mais aussi leurs coûts d'exploitation. La distillation a rapidement été adoptée pour rendre les modèles plus petits et plus économes. En 2018, Google a dévoilé son modèle de langage puissant BERT, utilisé pour analyser des milliards de requêtes de recherche. Mais BERT était volumineux et coûteux, donc en 2019, des développeurs ont créé DistilBERT, une version plus petite mais tout aussi performante, qui est devenue largement utilisée tant dans les milieux académiques que professionnels. Applications Récentes Plus récemment, en janvier 2021, le laboratoire NovaSky de l'Université de Californie, Berkeley, a montré que la distillation fonctionne bien pour former des modèles de raisonnement en chaîne, qui utilisent plusieurs étapes de "pensée" pour répondre à des questions complexes. Le modèle Sky-T1, développé par le laboratoire et entièrement open source, a été formé pour moins de 450 dollars et a obtenu des résultats similaires à ceux d'un modèle bien plus large et coûteux. Dacheng Li, un doctorant de Berkeley et co-responsable de l'équipe NovaSky, a qualifié cette réussite de véritable surprise. "La distillation est une technique fondamentale en IA," a-t-il affirmé. Limites et Éthique La distillation nécessite l'accès aux détails internes du modèle enseignant, ce qui rend difficile, voire impossible, pour une tierce personne de distiller des données d'un modèle propriétaire comme o1 d'OpenAI. Cependant, un modèle élève peut encore apprendre en posant des questions à un modèle enseignant et en utilisant ces réponses pour seformer, une approche presque socratique. Évaluation de l'Industrie et Profil de l'Entreprise La distillation de connaissances est aujourd'hui l'un des outils les plus importants pour améliorer l'efficacité des modèles d'IA, selon Enric Boix-Adsera, chercheur à l'Université de Pennsylvanie. Ces avancées technologiques offrent des perspectives prometteuses pour de nouveaux entrants dans le domaine de l'IA, rendant possible la création de modèles performants à moindre coût. DeepSeek, bien que relativement nouveau sur la scène internationale, a réussi à faire parler de lui en appliquant efficacement une technique bien connue. Son succès souligne l'importance de l'innovation et de l'optimisation des ressources existantes, rather than necessarily inventing entirely new approaches. Cette démarche a également révélé la vulnérabilité du marché des technologies, où une simple innovation peut conduire à d'importants mouvements boursiers. En conclusion, la distillation de connaissances continue d'être une technique essentielle dans le domaine de l'IA, favorisant à la fois l'efficacité technique et l'accessibilité économique des modèles.