Mise en garde : IA et inputs humains non fiables en santé mentale
Un nouvel article de réflexion publié dans la revue JMIR Mental Health met en garde contre les risques d'une « collusion » entre les systèmes d'intelligence artificielle et des données humaines peu fiables dans le domaine de la santé mentale. Dirigé par le Dr Hina Tahseen, cet ouvrage souligne que les modèles de langage, y compris les chatbots thérapeutiques, risquent d'hériter et de renforcer des informations erronées si de nouvelles mesures de sécurité ne sont pas adoptées. L'auteur propose que la fiabilité clinique des données d'entraînement devienne un critère central pour garantir la confiance dans l'IA. L'article examine comment les grands modèles de langage sont construits à partir de masses de textes et de retours humains. Bien que les efforts actuels en matière de sécurité de l'IA se concentrent souvent sur les préjudices survenant après le déploiement, comme des conseils trompeurs ou une dépendance émotionnelle, le Dr Tahseen affirme que le problème commence bien plus tôt, lors de la collecte des données humaines servant à l'apprentissage et au classement des préférences. Le concept psychiatrique de « collusion », défini comme l'acceptation non critique d'un récit peu fiable, est introduit pour expliquer ce comportement de l'IA. Il suggère que les systèmes peuvent renforcer involontairement des informations déformées, inexactes ou néfastes lorsqu'ils sont entraînés à privilégier l'approbation de l'utilisateur ou des retours humains non vérifiés. Selon le Dr Tahseen, les questions de sécurité doivent d'abord porter sur la fiabilité des données humaines sur lesquelles l'IA a appris, avant même de regarder ce qu'elle dit aux utilisateurs. La psychiatrie évalue cette fiabilité au quotidien dans la pratique clinique et cette expertise doit faire partie intégrante de la conception et de la gouvernance de l'IA, et non être une réflexion après coup. L'article ne se contente pas de plaider pour des correctifs techniques, mais recommande aux développeurs d'ajouter une expertise clinique dès la conception des données d'entraînement, lors de l'évaluation des retours et du suivi des systèmes après leur mise en service. Les méthodes de sécurité existantes, telles que l'entraînement au refus, les tests de pénétration ou « red-teaming », et la surveillance du contenu, abordent déjà certains aspects du problème. Cependant, elles ne sont pas spécifiquement conçues pour évaluer la fiabilité clinique des déclarations auto-rapportées par les humains. L'intégration explicite de la fiabilité clinique comme critère de confiance pourrait renforcer les protections pour les technologies de santé mentale. De plus, cela permettrait aux chercheurs de mieux comprendre comment les systèmes d'IA réagissent aux utilisateurs vulnérables. En exigeant une rigueur clinique dans les données d'entraînement, l'industrie pourrait éviter de normaliser des biais dangereux et assurer une meilleure intégrité des outils d'assistance psychologique.
