HyperAIHyperAI
vor 17 Tagen

Entwicklung von Frage-Antwort-Modellen für sprachlich benachteiligte Sprachen: Eine Fallstudie zu türkischen medizinischen Texten unter Verwendung transformerbasierter Ansätze

{Murat Aydogan, Mert Incidelen}
Abstract

In dieser Studie wurden transformerbasierte vortrainierte Sprachmodelle anhand medizinischer Texte für Frage-Antwort-(QA-)Aufgaben in Türkisch, einer Sprache mit geringen Ressourcen, fine-tuned. Verschiedene Varianten des BERTurk-Vortrainierungsmodells, das auf einer großen türkischen Korpus-Datenmenge erstellt wurde, wurden für QA-Aufgaben eingesetzt. Die Studie präsentiert eine neue medizinische türkische QA-Datensammlung, die aus türkischen Wikipedia-Artikeln und medizinischen Dissertationen aus dem Dissertationenzentrum des Rates für Hochschulbildung in der Türkei zusammengestellt wurde. Diese Datensammlung enthält insgesamt 8.200 Frage-Antwort-Paare und dient zur Fine-Tuning des BERTurk-Modells. Die Modellleistung wurde anhand der Metriken Exact Match (EM) und F1-Score bewertet. Das BERTurk-(cased, 32k)-Modell erzielte eine EM von 51,097 und einen F1-Score von 74,148, während das BERTurk-(cased, 128k)-Modell eine EM von 55,121 und einen F1-Score von 77,187 erreichte. Die Ergebnisse zeigen, dass vortrainierte Sprachmodelle erfolgreich für Frage-Antwort-Aufgaben in sprachlichen Kontexten mit geringen Ressourcen wie Türkisch eingesetzt werden können. Diese Studie legt eine wichtige Grundlage für die Verarbeitung türkischer medizinischer Texte und automatisierte QA-Aufgaben und liefert Anregungen für zukünftige Forschung in diesem Bereich.