HyperAIHyperAI
vor 11 Tagen

Embedding-Strategien für spezialisierte Domänen: Anwendung auf die klinische Entitäten-Erkennung

{Pierre Zweigenbaum, Olivier Ferret, Hicham El Boukkouri, Thomas Lavergne}
Embedding-Strategien für spezialisierte Domänen: Anwendung auf die klinische Entitäten-Erkennung
Abstract

Die Verwendung vortrainierter Wort-Einbettungen in Kombination mit Deep-Learning-Modellen ist in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) zur {``}de-facto{''}-Standardmethode geworden. Obwohl dies in der Regel zufriedenstellende Ergebnisse liefert, erzielen vorgefertigte Wort-Einbettungen häufig schlechte Leistungen auf Texten aus spezialisierten Domänen wie klinischen Berichten. Zudem ist die Erstellung spezialisierter Wortrepräsentationen von Grund auf oft unmöglich oder unwirksam, da ausreichend große, domänenrelevante Daten fehlen. In dieser Arbeit konzentrieren wir uns auf den klinischen Bereich und untersuchen Einbettungsstrategien, die ausschließlich auf allgemeindomänenbasierten Ressourcen beruhen. Wir zeigen, dass die Kombination von vorgefertigten kontextuellen Einbettungen (ELMo) mit statischen word2vec-Einbettungen, die auf einer kleinen, aus den Aufgabendaten zusammengestellten domänenbezogenen Korpus trainiert wurden, es ermöglicht, Leistungen zu erreichen, die teilweise sogar die von Modellen übertrifft, die auf einem großen medizinischen Korpus gelernt wurden.

Embedding-Strategien für spezialisierte Domänen: Anwendung auf die klinische Entitäten-Erkennung | Neueste Forschungsarbeiten | HyperAI