HyperAI

Distillation Des Connaissances

La distillation des connaissances est une technique d’apprentissage automatique qui vise à transférer les apprentissages d’un grand modèle pré-entraîné (le « modèle enseignant ») vers un « modèle étudiant » plus petit. Il est utilisé comme une forme de compression de modèle et de transfert de connaissances dans l'apprentissage en profondeur, et est particulièrement adapté aux réseaux neuronaux profonds à grande échelle.

L’objectif de la distillation des connaissances est de former un modèle plus compact pour simuler des modèles plus grands et plus complexes. Alors que l’objectif de l’apprentissage profond traditionnel est de former un réseau neuronal artificiel pour rendre ses prédictions plus proches des exemples de sortie fournis dans l’ensemble de données de formation, l’objectif principal de la distillation des connaissances est de former le réseau d’étudiants pour qu’il corresponde aux prédictions du réseau d’enseignants.

La distillation des connaissances (KD) est le plus souvent utilisée pour les grands réseaux neuronaux profonds avec de nombreuses couches et des paramètres apprenables. Ce processus est particulièrement pertinent pour les nouveaux modèles d’IA générative à grande échelle comportant des milliards de paramètres.

Le concept est né dans un article de 2006 intitulé Article « Compression du modèle ». Caruana et al. a utilisé un modèle de classification de pointe à l'époque (un grand modèle d'ensemble composé de centaines de classificateurs de base) pour étiqueter un grand ensemble de données, puis a formé un seul réseau neuronal sur le nouvel ensemble de données étiqueté grâce à l'apprentissage supervisé traditionnel.

Les techniques de distillation des connaissances ont été appliquées avec succès dans divers domaines, notamment le traitement du langage naturel (TALN), la reconnaissance vocale, la reconnaissance d’images et la détection d’objets. Ces dernières années, la recherche sur la distillation des connaissances est particulièrement importante pour les grands modèles de langage (LLM). Pour le LLM, la distillation des connaissances est devenue un moyen efficace de transférer des fonctionnalités avancées des principaux modèles propriétaires vers des modèles open source plus petits et plus accessibles.

Références

【1】https://www.ibm.com/topics/knowledge-distillation