Inférer la source de textes officiels : le SVM peut-il surpasser ULMFiT ?
Les journaux officiels constituent une source riche d'informations pertinentes pour le public. Une analyse attentive de ces documents peut permettre de détecter des fraudes et des irrégularités, contribuant ainsi à prévenir la mauvaise gestion des fonds publics. Ce papier présente un jeu de données composé de documents provenant du Journal Officiel du District Fédéral, incluant à la fois des échantillons annotés selon leur source et des documents non étiquetés. Nous entraînons, évaluons et comparons un modèle fondé sur le transfert d'apprentissage utilisant ULMFiT avec des modèles traditionnels basés sur le « bag-of-words » et utilisant pour classificateurs le SVM et le Naive Bayes. Nous constatons que le SVM se révèle compétitif : bien que sa performance soit légèrement inférieure à celle d'ULMFiT, elle est obtenue avec un temps d'entraînement et d'inférence beaucoup plus rapide, ainsi qu'une consommation informatique nettement réduite. Enfin, nous menons une analyse d'ablation afin d'évaluer l'impact des différentes composantes d'ULMFiT sur la performance globale du modèle.