FHAC à GermEval 2021 : Identification des commentaires toxiques, engageants et affirmant des faits en allemand avec l'apprentissage par ensemble

La disponibilité des représentations linguistiques apprises par de grands modèles de réseaux neuronaux préentraînés (comme BERT et ELECTRA) a conduit à des améliorations dans de nombreuses tâches de traitement du langage naturel en aval ces dernières années. Les modèles préentraînés diffèrent généralement par leurs objectifs d'préentraînement, leurs architectures et les jeux de données sur lesquels ils sont formés, ce qui peut influencer les performances en aval. Dans cette contribution, nous avons affiné les modèles BERT et ELECTRA allemands pour identifier les commentaires toxiques (sous-tâche 1), engageants (sous-tâche 2) et revendiquant des faits (sous-tâche 3) dans les données Facebook fournies par la compétition GermEval 2021. Nous avons créé des ensembles de ces modèles et examiné si et comment les performances de classification dépendent du nombre de membres de l'ensemble et de leur composition. Sur des données hors échantillon, notre meilleur ensemble a obtenu un score macro-F1 de 0,73 (pour toutes les sous-tâches) et des scores F1 de 0,72, 0,70 et 0,76 pour les sous-tâches 1, 2 et 3 respectivement.