Classification de données textuelles à l’aide de modèles vision pré-entraînés par apprentissage par transfert et transformations de données

La connaissance est acquise par les humains à travers l’expérience, et aucune frontière n’est établie entre les types de connaissances ou les niveaux de compétence que nous pouvons atteindre simultanément sur différentes tâches. En revanche, ce n’est pas le cas pour les réseaux de neurones. Les progrès dans ce domaine sont extrêmement spécifiques aux tâches et aux domaines. La vision et le langage sont traités de manières distinctes, à l’aide de méthodes différentes et de jeux de données distincts. Les méthodes actuelles de classification de texte reposent principalement sur l’obtention d’embeddings contextuels pour les échantillons de texte d’entrée, puis sur l’entraînement d’un classificateur sur l’ensemble de données ainsi encodé. Le transfert d’apprentissage est généralement largement utilisé dans les tâches liées au langage pour obtenir ces embeddings contextuels. Dans ce travail, nous proposons d’utiliser les connaissances acquises par des modèles visionnels de référence entraînés sur ImageNet afin d’aider une architecture bien plus petite à apprendre la classification de texte. Une technique de transformation de données est utilisée pour créer un nouveau jeu de données d’images, où chaque image représente un embedding de phrase provenant des six dernières couches de BERT, projeté sur un plan 2D à l’aide d’une méthode basée sur t-SNE. Nous avons entraîné cinq modèles, constitués des premières couches découpées à partir de modèles visionnels pré-entraînés sur ImageNet, sur le jeu de données d’images créé, pour le jeu de données IMDB dont les embeddings proviennent des six dernières couches de BERT. Malgré les défis posés par la différence importante entre les jeux de données, les résultats expérimentaux obtenus par cette approche, qui relie des modèles pré-entraînés à grande échelle en langage et en vision, sont très prometteurs, sans nécessiter d’importantes ressources de calcul. Plus précisément, l’analyse d’opinion est réalisée par cinq modèles différents sur le même jeu de données d’images, obtenues après transformation des embeddings BERT en images en niveaux de gris.Mots-clés : BERT, Réseaux de neurones convolutionnels, Adaptation de domaine, classification d’images, Traitement automatique du langage, t-SNE, classification de texte, transfert d’apprentissage