CalBERT - Représentations linguistiques adaptatives mixtes de code utilisant BERT

Une langue code-mixée est un type de langue qui combine deux ou plusieurs variétés linguistiques dans son écriture ou sa parole. L’analyse des textes code-mixés est difficile à traiter, car la langue utilisée n’est pas homogène et ne s’adapte pas aux approches monolingues existantes. Nous proposons une nouvelle approche visant à améliorer les performances des Transformers en introduisant une étape supplémentaire appelée « pré-entraînement Siamese », qui permet aux Transformers pré-entraînés de manière monolingue d’adapter leurs représentations linguistiques aux langues code-mixées à partir de très peu d’exemples de données code-mixées. Les architectures proposées surpassent l’état de l’art en termes de score F1 sur le jeu de données Sentiment Analysis for Indian Languages (SAIL), avec une amélioration maximale de 5,1 points, tout en atteignant également un taux de précision au niveau de l’état de l’art sur le jeu de données IndicGLUE Product Reviews, dépassant ainsi la référence de 0,4 point.