Ensemble De Données Médicales Multilingues ApolloCorpora
Date
Taille
URL de publication
ApolloCorpora est un ensemble de données médicales multilingue construit conjointement par le Shenzhen Big Data Research Institute et l'équipe de recherche de l'Université chinoise de Hong Kong. L'ensemble de données couvre six langues principales parlées par 6,1 milliards de personnes dans le monde, dont l'anglais, le chinois, l'hindi, l'espagnol, le français et l'arabe.
La collecte de données impliquait des livres, des directives cliniques, des encyclopédies, des articles, des forums et des examens. En termes de traitement des données, les chercheurs ont converti le corpus de pré-formation original en paires questions-réponses pour améliorer les capacités médicales du modèle. ApolloCorpora se concentre également sur des fonctionnalités localisées telles que le diagnostic des symptômes, les noms des médicaments, la terminologie de communication et les normes de pratique médicale pour s'adapter à différentes cultures et systèmes médicaux. Cet ensemble de données fournit une base solide pour le développement et l’évaluation de modèles d’IA médicale multilingues et contribue à promouvoir l’application mondiale de la technologie de l’IA médicale.