BIOSSES : un système d'estimation de similarité sémantique de phrases pour le domaine biomédical
Motivation : La quantité d'information disponible sous forme textuelle dans le domaine biomédical augmente rapidement. Par conséquent, les applications de traitement du langage naturel (NLP) deviennent de plus en plus essentielles pour faciliter la récupération et l'analyse de ces données. Le calcul de la similarité sémantique entre des phrases constitue un élément fondamental dans de nombreuses tâches de NLP, notamment la récupération de textes et la synthèse. Plusieurs approches ont été proposées pour estimer la similarité sémantique entre phrases dans des textes généraux en anglais. Cependant, nos expériences ont montré que ces approches ne couvrent pas efficacement les connaissances biomédicales et produisent des résultats médiocres sur les textes biomédicaux.Méthodes : Nous proposons plusieurs approches pour le calcul de la similarité sémantique au niveau des phrases dans le domaine biomédical, incluant des mesures de similarité de chaînes de caractères et des mesures basées sur des représentations vectorielles distribuées des phrases apprises de manière non supervisée à partir d'un grand corpus biomédical. En outre, des approches fondées sur les ontologies sont présentées, exploitant à la fois des ontologies générales et des ontologies spécifiques au domaine. Enfin, un modèle de régression supervisée est développé afin de combiner efficacement les différentes métriques de similarité. Un jeu de données de référence composé de 100 paires de phrases issues de la littérature biomédicale a été annoté manuellement par cinq experts humains et utilisé pour évaluer les méthodes proposées.Résultats : Les expériences ont montré que l'approche supervisée de calcul de similarité sémantique entre phrases atteint les meilleurs résultats (corrélation de 0,836 avec les annotations humaines de référence) et améliore les systèmes de pointe indépendants du domaine jusqu'à 42,6 % en termes de corrélation de Pearson.