Une approche par ensemble de modèles basée sur les LLM pour la classification de texte chinois
La catégorisation automatique des textes médicaux peut aider les médecins à gérer efficacement les informations des patients. En catégorisant des informations textuelles telles que les descriptions des symptômes fournies par les patients, les médecins peuvent facilement identifier les éléments clés, accélérer le processus de diagnostic, fournir des conseils médicaux de meilleure qualité, et contribuer ainsi au développement de services intelligents de diagnostic et de réponse automatique aux questions médicales. Dans cet article, une approche de catégorisation des textes médicaux est proposée dans le cadre de la tâche ouverte de partage de données de la 9e Conférence chinoise sur le traitement de l'information en santé (CHIP 2023), où les relations textuelles complexes constituent les deux principaux défis de cette tâche. Une méthode d’intégration de modèles est proposée, permettant de résoudre efficacement la catégorisation des textes médicaux grâce à la complémentarité de trois sous-modèles distincts. En outre, la solution intègre des outils externes destinés à améliorer spécifiquement les données pour les échantillons difficiles à classifier, afin de réduire les erreurs de classification. Les résultats finaux sont obtenus par un mécanisme de vote combinant les prédictions des différents modèles. Les résultats expérimentaux montrent que la méthode proposée atteint une précision de 92 %, confirmant ainsi l’efficacité du modèle.