HyperAIHyperAI

Command Palette

Search for a command to run...

Mesure de la similarité sémantique des résultats d'essais cliniques à l'aide de représentations linguistiques pré-entraînées profondes

Anna Korolevaa Patrick Paroubeka Sanjay Kamatha

Résumé

Contexte : Les résultats sont des variables surveillées au cours d’un essai clinique afin d’évaluer l’impact d’une intervention sur la santé humaine. Une évaluation automatique de la similarité sémantique des résultats d’essai est nécessaire pour diverses tâches, notamment la détection du changement de résultats (changement non justifié des résultats prédéfinis d’un essai) et la mise en œuvre des Ensembles de Résultats Fondamentaux (ensembles minimaux de résultats à rapporter dans un domaine médical particulier).Objectif : Nous avons cherché à développer un algorithme permettant d’évaluer la similarité sémantique entre des paires de résultats primaires et rapportés. Nous nous sommes concentrés sur des approches ne nécessitant pas de ressources manuellement curatrices spécifiques au domaine, telles que des ontologies ou des thésaurus.Méthodes : Nous avons testé plusieurs approches, incluant des mesures uniques de similarité (basées sur les chaînes de caractères, les racines morphologiques et les lemmes, les chemins et les distances dans une ontologie, ainsi que les représentations vectorielles des phrases), des classifieurs utilisant une combinaison de mesures uniques comme caractéristiques, et une approche d’apprentissage profond consistant à adapter (fine-tuning) des représentations linguistiques pré-entraînées. Nous avons évalué des modèles linguistiques fournis par BERT (entraîné sur des textes généraux), BioBERT et SciBERT (respectivement entraînés sur des textes biomédicaux et scientifiques). Nous avons également exploré la possibilité d’améliorer les performances en tenant compte des variantes de référence d’un résultat (par exemple, l’utilisation du nom d’un outil de mesure au lieu du nom du résultat, ou l’emploi d’abréviations). Nous mettons à disposition un corpus ouvert annoté pour la similarité entre paires de résultats.Résultats : Les classifieurs utilisant une combinaison de mesures uniques comme caractéristiques ont surpassé les mesures uniques seules, tandis que les algorithmes d’apprentissage profond utilisant les modèles BioBERT et SciBERT ont surpassé les classifieurs. BioBERT a atteint la meilleure mesure F de 89,75 %. L’ajout des variantes de résultats n’a pas amélioré les performances des meilleures mesures uniques ni celles des classifieurs, mais il a amélioré celles des algorithmes d’apprentissage profond : BioBERT a atteint une mesure F de 93,38 %.Conclusions : Les approches d’apprentissage profond utilisant des représentations linguistiques pré-entraînées ont surpassé les autres approches pour l’évaluation de la similarité des résultats d’essai clinique, sans dépendre de ressources manuellement curatrices spécifiques au domaine (ontologies ou autres ressources lexicales). L’intégration des variantes de résultats a par ailleurs permis d’améliorer davantage les performances des algorithmes d’apprentissage profond.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mesure de la similarité sémantique des résultats d'essais cliniques à l'aide de représentations linguistiques pré-entraînées profondes | Articles | HyperAI