Étude révèle les limites des chatbots en matière de conseils médicaux : Risques liés à une confiance excessive
Une récente étude dirigée par l'Université d'Oxford a mis en évidence les limites des chatbots basés sur l'intelligence artificielle en matière de conseil médical, montrant que leurs utilisateurs peuvent avoir du mal à obtenir des recommandations fiables. Dans un contexte de listes d'attente interminables et de coûts en hausse lié aux systèmes de santé surchargés, de nombreux individus se tournent vers les chatbots alimentés par l'IA, comme ChatGPT, pour effectuer des autodiagnostics médicaux. Selon une enquête récente, environ un Américain sur six consulte déjà des chatbots pour des conseils de santé au moins une fois par mois. Cependant, accorder trop de confiance aux réponses des chatbots peut être risqué. Adam Mahdi, directeur des études de cycle supérieur à l'Oxford Internet Institute et coauteur de l'étude, explique que les utilisateurs ont souvent du mal à fournir aux chatbots les informations nécessaires pour obtenir les meilleures recommandations de santé. Mahdi indique également que les participants n'avaient pas pris de décisions plus pertinentes qu'ils ne l'auraient fait en se fiant à des méthodes traditionnelles, comme des recherches en ligne ou leur propre jugement. L'étude s'est appuyée sur environ 1 300 participants au Royaume-Uni qui devaient élucider des scénarios médicaux rédigés par un groupe de médecins. Ils devaient identifier les potentielles conditions de santé dans ces scénarios et déterminer les actions à entreprendre, par exemple consulter un médecin ou se rendre aux urgences, en utilisant à la fois des chatbots et leurs propres méthodes. Les participants ont utilisé trois modèles d'IA : le modèle par défaut de ChatGPT, GPT-4, ainsi que Cohere’s Command R+ et Meta’s Llama 3, qui sous-tendent respectivement l'assistant AI de Cohere et celui de Meta. Les auteurs de l'étude ont constaté que l'utilisation de chatbots rendait les participants moins susceptibles d'identifier correctement une condition de santé pertinente, et augmentait la probabilité qu'ils minimisent la gravité des conditions qu'ils reconnaissaient. Selon Mahdi, les participants omettaient fréquemment des détails essentiels lorsqu'ils interrogeaient les chatbots, ou recevaient des réponses complexes à interpréter. Les suggestions obtenues étaient souvent un mélange de bonnes et mauvaises recommandations, ce qui compliquait davantage l'appréciation de la situation. « Actuellement, les méthodes d'évaluation des chatbots ne prennent pas en compte la complexité des interactions avec les utilisateurs humains », a souligné Mahdi. « Comme pour les essais cliniques de nouveaux médicaments, ces systèmes devraient être testés dans des conditions réelles avant d'être déployés. » Cette étude intervient alors que de nombreuses entreprises technologiques investissent massivement dans l'IA afin d'améliorer les résultats de santé. Par exemple, Apple développrait un outil IA capable de fournir des recommandations concernant l'exercice, l'alimentation et le sommeil. Amazon explore un moyen d'analyser les bases de données médicales pour identifier les déterminants sociaux de la santé. De son côté, Microsoft collabore à la construction d'un système d'IA permettant de hiérarchiser les messages adressés aux prestataires de soins par les patients. Malgré ces avancées, les opinions divergent quant à la prudence à adopter dans l'utilisation de l'IA pour les applications de santé à haut risque. L'American Medical Association (AMA) recommande aux médecins de ne pas utiliser des chatbots comme ChatGPT pour les décisions cliniques. De même, des entreprises majeures d'IA, comme OpenAI, mettent en garde contre les diagnostics basés sur les réponses de leurs chatbots. En conclusion, bien que ces technologies offrent un potentiel prometteur, elles nécessitent encore des améliorations significatives pour garantir leur fiabilité. Mahdi conseille donc de privilégier des sources d'information de confiance pour les décisions de santé, ajoutant que des tests approfondis dans des environnements réels sont indispensables avant toute mise en œuvre à grande échelle.