UCPhrase : Étiquetage non supervisé de phrases de qualité contextualisées

L'identification et la compréhension des expressions de qualité à partir du contexte constituent une tâche fondamentale en minage de texte. La partie la plus difficile de cette tâche réside probablement dans les expressions peu courantes, émergentes et spécifiques à un domaine. La rareté de ces expressions nuit considérablement aux performances des méthodes d'extraction d'expressions qui reposent sur une fréquence suffisante d'apparition des phrases dans le corpus d'entrée. Bien que les modèles de tagging contextuel ne soient pas limités par la fréquence, ils dépendent fortement des experts du domaine pour obtenir soit de nombreuses annotations au niveau des phrases, soit des listes de termes élaborées manuellement. Dans ce travail, nous proposons UCPhrase, un nouveau tagger contextuel non supervisé pour l'extraction d'expressions de qualité. Plus précisément, nous générons des étiquettes d'argent (silver labels) sous forme d'intervalles d'expressions de haute qualité à partir de séquences de mots qui co-occurent constamment au sein de chaque document. Comparativement à la supervision distante typique basée sur des bases de connaissances existantes (KBs), nos étiquettes d'argent sont profondément ancrées dans le domaine et le contexte d'entrée, offrant ainsi des avantages uniques en matière de préservation de l'intégrité contextuelle et de capture d'expressions émergentes hors KBs. L'entraînement d'un tagger neuronal conventionnel basé sur les étiquettes d'argent comporte généralement le risque de surapprentissage des noms superficiels des expressions. En revanche, nous observons que les cartes d'attention contextualisées générées par un modèle linguistique neuronal basé sur les transformers révèlent efficacement les liens entre les mots sans se soucier de leur apparence superficielle. Par conséquent, nous associons ces cartes d'attention aux étiquettes d'argent pour entraîner un modèle léger de prédiction d'intervalle, qui peut être appliqué à une nouvelle entrée afin de reconnaître (inconnues) des expressions de qualité quel que soit leur nom superficiel ou leur fréquence. Des expériences approfondies menées sur diverses tâches et jeux de données, y compris le classement au niveau du corpus, l'extraction au niveau du document et le tagging au niveau de la phrase, démontrent la supériorité de notre conception par rapport aux méthodes pré-entraînées, non supervisées et supervisées distantes les plus avancées.