Enrichissement sémantique des sorties d'embeddings pré-entraînés pour la recherche d'information non supervisée

La croissance rapide de la littérature scientifique dans les domaines biomédicaux et cliniques a considérablement compliqué l’identification des informations pertinentes par les chercheurs ainsi que par d’autres praticiens. Plus important encore, l’émergence rapide de nouveaux sujets et de découvertes nouvelles entrave fréquemment les performances des approches supervisées, en raison du manque de données annotées pertinentes. La pandémie mondiale de COVID-19 a encore davantage mis en évidence la nécessité de poser des requêtes et de naviguer efficacement dans des territoires inexplorés de la littérature scientifique de manière rapide et ciblée.Dans cet article, nous explorons le potentiel de renforcer sémantiquement les architectures profondes basées sur les transformateurs en intégrant SNOMED-CT afin de répondre aux requêtes utilisateurs de manière non supervisée. Notre système proposé vise à filtrer et à réordonner les documents liés à une requête initialement récupérés à l’aide de modèles BERT. Pour ce faire, nous enrichissons les requêtes et les documents par des concepts SNOMED-CT, puis appliquons des filtres basés sur l’occurrence conjointe de ces concepts. Nous évaluons cette approche sur le jeu de données OHSUMED et démontrons des performances compétitives. Nous présentons également notre méthode pour adapter cette approche aux articles complets, notamment dans le cadre du défi sur le jeu de données CORD-19 de Kaggle.