HyperAIHyperAI
vor 16 Tagen

BIOSSES: Ein System zur Schätzung der semantischen Satzähnlichkeit für den biomedizinischen Bereich

{Arzucan Özgür, Hakime Öztürk, Gizem Sogancioglu}
Abstract

Motivation: Die Menge an in textueller Form verfügbaren Informationen im biomedizinischen Bereich wächst rasant. Daher werden Anwendungen des Natural Language Processing (NLP) zunehmend wichtiger, um die Abfrage und Analyse dieser Daten zu erleichtern. Die Berechnung der semantischen Ähnlichkeit zwischen Sätzen ist eine zentrale Komponente vieler NLP-Aufgaben, darunter Textretrieval und Zusammenfassung. Zahlreiche Ansätze zur Schätzung der semantischen Satzähnlichkeit für allgemeines Englisch wurden vorgeschlagen. Unsere Experimente zeigten jedoch, dass diese Ansätze biomedizinisches Wissen nicht ausreichend erfassen und für biomedizinische Texte schlechte Ergebnisse liefern.Methoden: Wir stellen mehrere Ansätze zur Berechnung der semantischen Ähnlichkeit auf Satzebene im biomedizinischen Bereich vor, darunter String-Ähnlichkeitsmaße sowie Maße, die auf verteilten Vektorrepräsentationen von Sätzen basieren, die auf unsupervisierter Weise aus einem großen biomedizinischen Korpus gelernt wurden. Zudem werden ontologiebasierte Ansätze vorgestellt, die sowohl allgemeine als auch domain-spezifische Ontologien nutzen. Schließlich wird ein überwachtes Regressionsmodell entwickelt, das die verschiedenen Ähnlichkeitsmaße effektiv kombiniert. Als Benchmark-Datensatz dient ein von fünf menschlichen Experten manuell annotierter Satzpaar-Korpus aus 100 Paaren aus der biomedizinischen Literatur, der zur Evaluierung der vorgeschlagenen Methoden verwendet wird.Ergebnisse: Die Experimente zeigten, dass der überwachte Ansatz zur semantischen Satzähnlichkeitsberechnung die beste Leistung erzielte (Korrelation von 0,836 mit den Gold-Standard-Menschenannotationen) und im Vergleich zu den besten, domänenunabhängigen Systemen bis zu 42,6 % in Bezug auf die Pearson-Korrelationsmetrik verbesserte.

BIOSSES: Ein System zur Schätzung der semantischen Satzähnlichkeit für den biomedizinischen Bereich | Neueste Forschungsarbeiten | HyperAI