HyperAIHyperAI
vor 18 Tagen

Semantische Richerung der vortrainierten Embedding-Ausgabe für unsupervisiertes IR

{Giorgos Stamou, Chrysoula Zerva, Alexios Mandalios, Konstantinos Thomas, Giorgos Filandrianos, Edmund Dervakos}
Semantische Richerung der vortrainierten Embedding-Ausgabe für unsupervisiertes IR
Abstract

Die rasant wachsende Menge an wissenschaftlicher Literatur im biomedizinischen und klinischen Bereich hat die Identifizierung von für Forscher und andere Fachkräfte relevanten Informationen erheblich erschwert. Noch wichtiger ist, dass die schnelle Emergenz neuer Themen und Erkenntnisse die Leistung überwachter Ansätze oft beeinträchtigt, da entsprechende annotierte Daten fehlen. Die globale COVID-19-Pandemie hat zudem die Notwendigkeit unterstrichen, wissenschaftliche Literatur prompt und effizient nach bisher unerforschten Themen zu durchsuchen und zu navigieren.In diesem Artikel untersuchen wir das Potenzial, tiefgreifende Transformer-Architekturen semantisch durch die Nutzung von SNOMED-CT zu verbessern, um Nutzeranfragen in einer unsupervisierten Weise zu beantworten. Unser vorgeschlagener Ansatz versucht, Dokumente, die zunächst mit BERT-Modellen abgerufen wurden, zu filtern und neu zu rangieren, die sich auf eine Anfrage beziehen. Dazu werden sowohl Anfragen als auch Dokumente mit SNOMED-CT-Konzepten angereichert, und es werden Filter basierend auf der gemeinsamen Auftretenshäufigkeit dieser Konzepte zwischen Anfrage und Dokument angewandt. Wir evaluieren unseren Ansatz am OHSUMED-Datensatz und zeigen wettbewerbsfähige Ergebnisse. Zudem präsentieren wir eine Methode zur Anpassung dieses Ansatzes auf vollständige wissenschaftliche Arbeiten, beispielsweise im Kontext der CORD-19-Volltextdaten-Challenge des Kaggle-Wettbewerbs.