HyperAIHyperAI
Back to Headlines

Comment Former les Étudiants à la Détection du Biais dans les Données d'IA Médicale ?

il y a 5 mois

Comment aider les étudiants à reconnaître les biais potentiels dans leurs datasets d'IA Chaque année, des milliers d'étudiants suivent des cours leur montrant comment déployer des modèles d'intelligence artificielle (IA) capables d'aider les médecins à diagnostiquer des maladies et à déterminer les traitements appropriés. Cependant, nombre de ces formations omittent un aspect crucial : former les étudiants à détecter les défauts dans les données d'entraînement utilisées pour développer ces modèles. Leo Anthony Celi, chercheur principal au MIT Institute for Medical Engineering and Science, médecin au Beth Israel Deaconess Medical Center, et associé professor à Harvard Medical School, a documenté ces lacunes dans une nouvelle étude et souhaite convaincre les concepteurs de cours d'ensuite aux étudiants à évaluer plus rigoureusement leurs données avant de les intégrer dans leurs modèles. Comment les biais entrent-ils dans ces datasets, et quelles sont les solutions possibles ? Les problèmes dans les données se traduisent inexorablement par des anomalies dans les modèles basés sur celles-ci. Des recherches antérieures ont montré que les instruments et dispositifs médicaux ne fonctionnent souvent pas correctement pour tous les individus. Par exemple, les oxymètres de pouls surévaluent souvent les niveaux d'oxygène chez les personnes de couleur, car elles n'ont été testées que sur un nombre insuffisant de volontaires de ces groupes. Les étudiants sont rappelés que les équipements médicaux ont été optimisés pour des hommes jeunes et sains ; ils ne sont jamais adaptés à des femmes âgées de 80 ans souffrant d'insuffisance cardiaque, mais ils sont utilisés à cette fin. En outre, la Food and Drug Administration (FDA) n'exige pas qu'un dispositif fonctionne bien sur une population aussi diversifiée que celle à laquelle il sera destiné, du moment qu'il est efficace sur des sujets en bonne santé. De plus, le système d'enregistrement électronique de la santé n'est pas conçu pour servir de base à l'IA. Ces enregistrements ne visent pas à apprendre, et pour cette raison, il faut être extrêmement prudent quand on les utilise. Bien que ce système soit prévu pour être remplacé, cela n'arrivera pas de sitôt. Il est donc essentiel d'être créatif et intelligent dans l'utilisation des données actuellement disponibles, même si elles sont imparfaites. Une piste prometteuse est le développement de modèles de type transformer pour les données numeriques des dossiers médicaux, y compris les résultats des examens laboratoires. Ce type de modèle permet de réduire l'effet des données manquantes dues aux déterminants sociaux de la santé et aux biais implicites des prestataires de soins. Pourquoi-il est important que les cours d'IA abordent les sources de biais potentiel ? Le cours d'IA du MIT a débuté en 2016, et les formateurs ont rapidement réalisé qu'ils poussaient les participants à construire des modèles overtunés à des mesures statistiques de performance, sans que ceux-ci soient conscients des nombreux problèmes présents dans les données. Ils se sont demandé à quel point ce problème était répandu. Leurs appréhensions étaient justifiées : une analyse de 11 cours en ligne a révélé que seuls cinq incluaient des sections sur le biais dans les datasets, et seulement deux abordaient de façon significative ce sujet. Ceci ne minimise pas la valeur de ces cours, qui ont permis à de nombreux autodidactes d'apprendre des compétences essentielles en IA. Néanmoins, étant donné leur influence et leur impact, il est crucial de renforcer l'exigence de formation aux bonnes pratiques, particulièrement maintenant que de plus en plus de personnes sont attirées par ce domaine. Maîtriser les bases de l'IA implique de développer les capacités nécessaires pour travailler en toute conscience avec ces technologies. Cette étude vise à mettre en lumière l'écart majeur entre ce que nous enseignons actuellement et les besoins réels du secteur. Quel type de contenu devrait être intégré par les développeurs de cours ? Il faut d'abord donner aux étudiants une check-list de questions à poser dès le début. D'où viennent ces données ? Qui les a collectées ? Quelle est la composition démographique des établissements qui ont fourni ces données ? Si les données proviennent d'une unité de soins intensifs (USI), il est important de comprendre qui a accès à ces services et qui n'y a pas accès, car cela introduit déjà un biais de sélection. Si la plupart des patients minoritaires ne parviennent pas jusqu'à l'USI à temps, les modèles ne seront pas opérationnels pour eux. Selon Celi, au moins la moitié du contenu des cours devrait être consacrée à la compréhension des données, car une fois maîtrisée, la modélisation elle-même devient beaucoup plus simple. Depuis 2014, le MIT Critical Data Consortium organise des "datathons" (hackathons de données) à travers le monde, où médecins, infirmiers, autres professionnels de santé et data scientists collaborent pour examiner des bases de données et étudier la santé et les maladies dans leur contexte local. Les manuels scolaires et les revues scientifiques présentent souvent les maladies à partir d'observations et d'essais centrés sur une démographie restreinte, généralement provenant de pays disposant de moyens de recherche importants. L'objectif principal de ces initiatives est de former les étudiants à penser de manière critique. Cette compétence essentielle se développe naturellement quand on rassemble des personnes aux profils variés. Un environnement diversifié en termes d'expériences et de générations favorise spontanément la pensée critique. Celi souligne que, bien que nous puissions ne pas avoir toutes les réponses, il est crucial de sensibiliser les gens aux problèmes potentiels des données. Il exprime sa satisfaction en lisant les blogs des participants aux datathons qui, grâce à ce processus, ont compris le potentiel et les risques réels de l'IA. En conclusion, les concepteurs de cours doivent intégrer des modules de formation sur la compréhension des données, y compris leur origine et leur pertinence pour différentes populations, afin de préparer les étudiants non seulement à construire des modèles mais aussi à les évaluer critiqueusement pour éviter la propagation des biais. Évaluation du secteur et profil de l'entreprise Leo Anthony Celi, avec son expertise à Triple Front (chercheur au MIT, praticien à Beth Israel Deaconess et enseignant à Harvard Medical School), est reconnu pour son travail pionnier en matière de biais dans les datasets d'IA en soins de santé. Son récent article, publié dans une revue scientifique, met en évidence les lacunes des formations actuelles et propose des solutions concrètes. L'initiative du MIT Critical Data Consortium, qui organise des datathons internationaux, témoigne de la nécessité d'une collaboration interdisciplinaire et intergénérationnelle pour développer une pensée critique chez les futurs spécialistes de l'IA. Des experts de l'industrie soutiennent ces efforts, soulignant que la formation à la détection des biais est essentielle pour garantir des applications de l'IA équitables et fiables.

Related Links

Comment Former les Étudiants à la Détection du Biais dans les Données d'IA Médicale ? | Gros titres | HyperAI