ShotgunWSD : Un algorithme non supervisé pour la désambiguïcation globale du sens des mots inspiré par le séquençage de l'ADN

Dans cet article, nous présentons un nouvel algorithme non supervisé pour la désambiguïsation des sens des mots (WSD) au niveau du document. Notre algorithme s'inspire d'une approche largement utilisée dans le domaine de la génétique pour le séquençage de l'ADN complet, connue sous le nom de technique de séquençage à fragmentation aléatoire (Shotgun sequencing). L'algorithme WSD proposé repose sur trois étapes principales. Premièrement, un algorithme WSD par force brute est appliqué à des fenêtres contextuelles courtes (jusqu'à 10 mots) sélectionnées dans le document afin de générer une liste réduite de configurations de sens probables pour chaque fenêtre. Dans la deuxième étape, ces configurations locales de sens sont assemblées en configurations composites plus longues basées sur l'appariement des suffixes et des préfixes. Les configurations obtenues sont classées selon leur longueur, et le sens de chaque mot est choisi selon un système de vote qui ne prend en compte que les k meilleures configurations dans lesquelles le mot apparaît. Nous comparons notre algorithme avec d'autres algorithmes non supervisés WSD de pointe et démontrons une meilleure performance, parfois avec une marge considérable. Nous montrons également que notre algorithme peut surpasser la performance de la méthode de référence du Sens le Plus Commun (MCS) sur un ensemble de données. De plus, notre algorithme possède un très petit nombre de paramètres, est robuste aux ajustements des paramètres, et contrairement à d'autres méthodes inspirées par la biologie, il fournit une solution déterministe (il ne fait pas intervenir des choix aléatoires).