BioSentVec : création de plongements de phrases pour les textes biomédicaux

Les représentations vectorielles de phrases sont devenues une composante essentielle des systèmes actuels de traitement du langage naturel (NLP), en particulier lorsqu'elles sont utilisées avec des méthodes avancées d'apprentissage profond. Bien que des encodeurs de phrases pré-entraînés soient disponibles pour le domaine général, aucun n'existe à ce jour pour les textes biomédicaux. Dans cette étude, nous présentons BioSentVec : le premier ensemble ouvert de représentations vectorielles de phrases entraîné sur plus de 30 millions de documents provenant à la fois d'articles scientifiques dans PubMed et de notes cliniques dans la base de données MIMIC-III. Nous évaluons les représentations vectorielles BioSentVec dans deux tâches de similarité entre paires de phrases dans différents genres textuels. Nos résultats d'évaluation montrent que les représentations vectorielles BioSentVec capturent mieux la sémantique des phrases par rapport aux autres alternatives compétitives et atteignent des performances de pointe dans les deux tâches. Nous nous attendons à ce que BioSentVec facilite la recherche et le développement dans l'exploration textuelle biomédicale et complète les ressources existantes en plongements lexicaux biomédicaux. BioSentVec est disponible au public sur https://github.com/ncbi-nlp/BioSentVec.