Avancée de l'état de l'art en modélisation linguistique

La généralisation est sans doute l’objectif le plus important de la recherche en modélisation linguistique statistique. Les benchmarks accessibles au public ainsi que les publications accompagnées de code open-source ont été essentiels pour faire progresser le domaine. Toutefois, il est souvent très difficile, voire parfois impossible, de reproduire intégralement les résultats rapportés dans les articles scientifiques. Dans ce papier, nous proposons un cadre simple visant à accélérer l’avancement de l’état de l’art en modélisation linguistique en matière de généralisation. Nous suggérons de publier non seulement le code, mais également les probabilités obtenues sur les ensembles de validation et de test dans les futures publications, afin qu’il soit facile d’intégrer le nouveau modèle dans un ensemble (ensemble learning). Cette approche présente des avantages cruciaux : il devient bien plus aisé de déterminer si un modèle récemment proposé est véritablement complémentaire à la base actuelle. Ainsi, la communauté scientifique peut progresser plus rapidement, sans avoir à inventer de nouveaux noms pour des astuces anciennes. Enfin, cette méthode favorise la diversité des idées : il n’est plus nécessaire de concevoir un modèle unique qui atteigne lui seul l’état de l’art pour attirer l’attention ; il suffit de développer un modèle capable d’apprendre des motifs que les autres modèles ne capturent pas. Par conséquent, même un modèle sous-optimal peut s’avérer utile. Notamment, notre approche a permis d’obtenir de nouveaux résultats état de l’art sur divers benchmarks de modélisation linguistique, avec des améliorations allant jusqu’à 10 %.