Une étude sur l'extraction d'information : prenez en compte la tokenization !

Les recherches actuelles sur les avantages et les compromis liés à l’utilisation de caractères, plutôt que de textes tokenisés, comme entrée pour les modèles d’apprentissage profond, ont considérablement évolué. De nouveaux modèles sans tokenisation éliminent l’étape traditionnelle de tokenisation ; toutefois, leur efficacité reste encore mal établie. De plus, l’impact de la tokenisation est relativement peu exploré dans les tâches de marquage de séquences. À cet effet, nous étudions l’impact de la tokenisation lors de l’extraction d’information à partir de documents et présentons une étude comparative et une analyse des modèles fondés sur des sous-mots et des caractères. Plus précisément, nous nous intéressons à l’extraction d’information (IE) à partir de textes biomédicaux. Le résultat principal est double : les schémas de tokenisation peuvent introduire un biais inductif conduisant à des performances de pointe, et les modèles basés sur les caractères produisent des résultats prometteurs ; ainsi, le passage à des modèles d’extraction d’information sans tokenisation s’avère réalisable.