HyperAIHyperAI
vor 11 Tagen

Messung der semantischen Ähnlichkeit klinischer Prüfungsresultate mithilfe tiefer vortrainierter Sprachdarstellungen

{Anna Korolevaa, Patrick Paroubeka, Sanjay Kamatha}
Abstract

Hintergrund: Ergebnisse sind während klinischer Studien überwachte Variablen, die zur Beurteilung des Einflusses einer Intervention auf die Gesundheit von Menschen dienen. Die automatische Bewertung der semantischen Ähnlichkeit von Studienergebnissen ist für verschiedene Aufgaben erforderlich, darunter die Erkennung von Outcome-Switching (unbegründete Änderungen vordefinierter Studienergebnisse) sowie die Implementierung von Core Outcome Sets (minimale Sätze von Ergebnissen, die in einem bestimmten medizinischen Bereich berichtet werden sollten).Ziel: Wir entwickelten einen Algorithmus zur Bewertung der semantischen Ähnlichkeit von Paaren primärer und berichteter Ergebnisse. Dabei konzentrierten wir uns auf Ansätze, die keine manuell erstellten, fachspezifischen Ressourcen wie Ontologien oder Thesauri erfordern.Methoden: Wir testeten verschiedene Ansätze, darunter einzelne Ähnlichkeitsmaße (basierend auf Zeichenketten, Stämmen und Lemmata, Pfaden und Abständen in einer Ontologie sowie Vektorrepräsentationen von Phrasen), Klassifikatoren, die eine Kombination einzelner Maße als Merkmale verwenden, sowie einen Deep-Learning-Ansatz, der auf der Feinabstimmung vortrainierter tiefen Sprachrepräsentationen basiert. Als Sprachmodelle nutzten wir BERT (auf allgemeinen Texten trainiert), BioBERT und SciBERT (jeweils auf biomedizinischen bzw. wissenschaftlichen Texten trainiert). Wir untersuchten die Möglichkeit, die Ergebnisse durch Berücksichtigung von Varianten der Ergebnisbezeichnung zu verbessern (z. B. Verwendung des Namens eines Messgeräts statt des Ergebnisnamens; Verwendung von Abkürzungen). Wir veröffentlichen eine offene Korpusdatenbank mit Annotationen zur Ähnlichkeit von Ergebnispaaren.Ergebnisse: Klassifikatoren, die eine Kombination einzelner Ähnlichkeitsmaße als Merkmale verwendeten, übertrafen die einzelnen Maße. Die Deep-Learning-Algorithmen, die auf den Modellen BioBERT und SciBERT basierten, erzielten eine bessere Leistung als die Klassifikatoren. BioBERT erreichte die beste F-Maß-Quote von 89,75 %. Die Berücksichtigung von Ergebnisvarianten verbesserte die Leistung der besten einzelnen Ähnlichkeitsmaße sowie der Klassifikatoren nicht, jedoch führte sie zu einer Verbesserung der Leistung der Deep-Learning-Algorithmen: BioBERT erzielte eine F-Maß-Quote von 93,38 %.Schlussfolgerung: Deep-Learning-Ansätze, die auf vortrainierten Sprachrepräsentationen basieren, übertrafen andere Ansätze bei der Bewertung der semantischen Ähnlichkeit von Studienergebnissen, ohne auf manuell erstellte, fachspezifische Ressourcen (Ontologien und andere lexikalische Ressourcen) angewiesen zu sein. Die Einbeziehung von Ergebnisvarianten verbesserte die Leistung der Deep-Learning-Algorithmen weiterhin.

Messung der semantischen Ähnlichkeit klinischer Prüfungsresultate mithilfe tiefer vortrainierter Sprachdarstellungen | Neueste Forschungsarbeiten | HyperAI