HSCNN : Un Réseau de Neurones Convolutif Hybride-Siamese pour la Classification de Textes Multi-étiquettes Extrêmement Déséquilibrée

Le problème d'imbalance des données constitue une question cruciale dans la classification multilabel de textes. Certaines méthodes existantes tentent de le résoudre en proposant des fonctions de perte déséquilibrées au lieu de la perte croisée classique, mais leurs performances restent limitées dans les cas de données extrêmement déséquilibrées. Nous proposons une solution hybride qui adapte les réseaux généraux aux catégories fréquentes (head), tout en appliquant des techniques à faible exemplaire (few-shot) aux catégories rares (tail). Nous introduisons un Réseau de Neurones Convolutionnel Hybride-Siamese (HSCNN) doté de caractéristiques techniques supplémentaires : une architecture multi-tâches basée sur des réseaux simples et des réseaux Siamese ; une similarité spécifique par catégorie intégrée dans la structure Siamese ; ainsi qu'une méthode d'échantillonnage particulière pour l'entraînement du HSCNN. Les résultats obtenus sur deux jeux de données standards et trois fonctions de perte montrent que notre méthode améliore significativement les performances des réseaux simples, quelles que soient les fonctions de perte utilisées, notamment sur les catégories rares ou sur l'ensemble des catégories.