HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

BIOSSES: Ein System zur Schätzung der semantischen Satzähnlichkeit für den biomedizinischen Bereich

{Arzucan Özgür Hakime Öztürk Gizem Sogancioglu}

Abstract

Motivation: Die Menge an in textueller Form verfügbaren Informationen im biomedizinischen Bereich wächst rasant. Daher werden Anwendungen des Natural Language Processing (NLP) zunehmend wichtiger, um die Abfrage und Analyse dieser Daten zu erleichtern. Die Berechnung der semantischen Ähnlichkeit zwischen Sätzen ist eine zentrale Komponente vieler NLP-Aufgaben, darunter Textretrieval und Zusammenfassung. Zahlreiche Ansätze zur Schätzung der semantischen Satzähnlichkeit für allgemeines Englisch wurden vorgeschlagen. Unsere Experimente zeigten jedoch, dass diese Ansätze biomedizinisches Wissen nicht ausreichend erfassen und für biomedizinische Texte schlechte Ergebnisse liefern.Methoden: Wir stellen mehrere Ansätze zur Berechnung der semantischen Ähnlichkeit auf Satzebene im biomedizinischen Bereich vor, darunter String-Ähnlichkeitsmaße sowie Maße, die auf verteilten Vektorrepräsentationen von Sätzen basieren, die auf unsupervisierter Weise aus einem großen biomedizinischen Korpus gelernt wurden. Zudem werden ontologiebasierte Ansätze vorgestellt, die sowohl allgemeine als auch domain-spezifische Ontologien nutzen. Schließlich wird ein überwachtes Regressionsmodell entwickelt, das die verschiedenen Ähnlichkeitsmaße effektiv kombiniert. Als Benchmark-Datensatz dient ein von fünf menschlichen Experten manuell annotierter Satzpaar-Korpus aus 100 Paaren aus der biomedizinischen Literatur, der zur Evaluierung der vorgeschlagenen Methoden verwendet wird.Ergebnisse: Die Experimente zeigten, dass der überwachte Ansatz zur semantischen Satzähnlichkeitsberechnung die beste Leistung erzielte (Korrelation von 0,836 mit den Gold-Standard-Menschenannotationen) und im Vergleich zu den besten, domänenunabhängigen Systemen bis zu 42,6 % in Bezug auf die Pearson-Korrelationsmetrik verbesserte.

Benchmarks

BenchmarkMethodikMetriken
sentence-embeddings-for-biomedical-texts-onParagraph Vector
Pearson Correlation: 0.787

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BIOSSES: Ein System zur Schätzung der semantischen Satzähnlichkeit für den biomedizinischen Bereich | Forschungsarbeiten | HyperAI