HyperAIHyperAI

Command Palette

Search for a command to run...

Données synthétiques en santé : promesses révolutionnaires, risques à ne pas sous-estimer

Les données synthétiques offrent des perspectives prometteuses pour la recherche médicale, notamment dans l’analyse rapide des radiographies grâce à l’intelligence artificielle (IA). Contrairement aux données réelles collectées auprès de patients, ces données sont générées par des algorithmes ou des modèles mathématiques, parfois à partir de données humaines réelles, mais conçues pour reproduire leurs propriétés statistiques sans contenir d’informations identifiables. Leur utilisation permet de contourner certaines barrières éthiques, car elles ne représentent pas des individus réels, ce qui a poussé plusieurs universités à exclure ces recherches de l’obligation de passage par un comité d’éthique. Cette pratique soulève toutefois deux préoccupations majeures. Premièrement, même si les liens avec les données originales s’estompent au fil des générations de données synthétiques, il existe un risque que des individus dont les données ont servi à entraîner les modèles soient réidentifiés, notamment si les données synthétiques sont trop proches des originales. Ce risque, bien qu’atténué par les itérations successives, doit être pris au sérieux, surtout en l’absence de consentement explicite. Deuxièmement, la fiabilité des résultats issus d’IA entraînées sur des données synthétiques est largement inconnue. Le phénomène de « collapsus du modèle » — où les générations successives de données synthétiques dérivent de plus en plus de biais ou de fausses tendances — peut mener à des conclusions erronées ou absurdes. Pour garantir la validité scientifique, une validation indépendante des résultats est essentielle. Pourtant, cette pratique reste rare, et aucune norme internationale n’existe encore pour encadrer ce processus. Des experts comme Zisis Kozlakidis, scientifique des données à l’OMS, insistent sur la nécessité de transparence : les chercheurs doivent décrire précisément les algorithmes, les paramètres et les hypothèses utilisés pour générer les données synthétiques, afin de permettre une reproductibilité et une vérification par d’autres équipes. Randi Foraker, bioinformaticienne à l’Université du Missouri, propose d’instaurer des normes de reporting similaires à celles existant pour les données et le code source, en collaboration avec les éditeurs scientifiques. Marcel Binz, de l’Institut Helmholtz pour l’IA centrée sur l’humain à Munich, insiste sur la nécessité de validation externe pour tout modèle d’IA, y compris son propre modèle Centaur, entraîné sur plus de 10 millions de décisions humaines. Bien que librement accessible, il reconnaît qu’il s’agit probablement de la version la moins performante du modèle, et qu’il doit être testé indépendamment pour être jugé fiable. En somme, les données synthétiques représentent un outil puissant pour accélérer la recherche médicale, notamment dans les pays à ressources limitées, mais leur adoption doit être accompagnée de vigilance. Les chercheurs, éditeurs, institutions et régulateurs doivent collaborer pour établir des standards clairs de génération, de partage et de validation des données synthétiques, afin de prévenir les biais, protéger la confidentialité et assurer la crédibilité scientifique des découvertes. La tentation de croire aveuglément à un résultat simplement parce qu’il provient d’un algorithme doit être combattue.

Liens associés

Données synthétiques en santé : promesses révolutionnaires, risques à ne pas sous-estimer | Articles tendance | HyperAI