HyperAIHyperAI
il y a 17 jours

Développement de modèles de réponse aux questions dans les langues à faibles ressources : une étude de cas sur les textes médicaux turcs utilisant des approches fondées sur les Transformers

{Murat Aydogan, Mert Incidelen}
Résumé

Dans cette étude, des modèles pré-entraînés basés sur l’architecture Transformer ont été affinés à l’aide de textes médicaux pour des tâches de réponse aux questions (QA) en turc, une langue à faibles ressources. Des variantes du modèle pré-entraîné BERTurk, développées à partir d’un grand corpus turc, ont été utilisées pour ces tâches de QA. L’étude présente un jeu de données de QA médical en turc, constitué à partir de Wikipedia turc et de mémoires médicales disponibles au Centre des Thèses du Conseil supérieur de l’enseignement supérieur en Turquie. Ce jeu de données, comprenant au total 8 200 paires question-réponse, a été utilisé pour l’affinage du modèle BERTurk. La performance des modèles a été évaluée à l’aide des métriques Exact Match (EM) et F1. Le modèle BERTurk (majuscules, 32k) a atteint un score EM de 51,097 et un score F1 de 74,148, tandis que le modèle BERTurk (majuscules, 128k) a obtenu un EM de 55,121 et un F1 de 77,187. Les résultats démontrent qu’il est possible d’utiliser avec succès des modèles pré-entraînés pour des tâches de réponse aux questions dans des langues à faibles ressources telles que le turc. Cette étude établit une base importante pour le traitement automatique des textes médicaux en turc et les tâches de QA automatisée, tout en ouvrant la voie à des recherches futures dans ce domaine.