Modèle de réponse à des questions sur les symptômes de la schizophrénie et leur impact sur la vie quotidienne à l’aide de données provenant de forums de santé mentale

Ces dernières années, une attention croissante est portée à l’extraction d’informations à partir de données médicales à l’aide de techniques d’apprentissage automatique. Un problème courant consiste à obtenir un ensemble de documents textuels exempts de bruit, pertinent pour une question de recherche donnée, et à développer un modèle de réponse à des questions (Question Answering, QA) adapté à un domaine médical spécifique. Ce papier présente une nouvelle méthodologie visant à construire un jeu de données médical et à obtenir un modèle QA permettant d’analyser les symptômes et leur impact sur la vie quotidienne dans un domaine de maladie précis. Le forum « Santé mentale », dédié aux personnes souffrant de schizophrénie et d’autres troubles mentaux, a été utilisé comme source de données. Des messages pertinents provenant d’utilisateurs actifs, régulièrement impliqués, ont été extraits, offrant ainsi une nouvelle approche pour obtenir du contenu à faible biais et sans risque pour la vie privée. En outre, nous montrons comment prétraiter ce jeu de données afin de le transformer en un jeu de données adapté au QA. Les modèles Bidirectional Encoder Representations from Transformers (BERT), DistilBERT, RoBERTa et BioBERT ont été affinés (fine-tuned) et évalués à l’aide des métriques F1-Score, Exact Match, Précision et Rappel. Des expériences empiriques précises ont démontré l’efficacité de la méthode proposée pour obtenir un jeu de données fiable destiné à l’implémentation d’un modèle QA. En affinant le modèle QA BioBERT, nous avons atteint un score F1 de 0,885, illustrant une amélioration significative et surpassant ainsi le modèle de l’état de l’art dans le domaine des troubles mentaux.