ChatGPT s’impose comme un soutien émotionnel plus sûr : des progrès décisifs dans la gestion des crises psychologiques
Nous avons récemment mis à jour le modèle par défaut de ChatGPT afin d’améliorer sa capacité à reconnaître et à accompagner les utilisateurs en situation de détresse. Ces améliorations, réalisées en collaboration avec des experts en santé mentale ayant une expérience clinique concrète, visent à renforcer la reconnaissance des signes de détresse, à désamorcer les conversations tendues et à orienter les utilisateurs vers des ressources professionnelles lorsque nécessaire. Par ailleurs, nous avons étendu l’accès aux lignes d’urgence, redirigé les échanges sensibles provenant d’autres modèles vers des versions plus sûres, et ajouté des rappels doux pour prendre des pauses lors de sessions prolongées. Notre objectif est de permettre à ChatGPT de devenir un espace bienveillant où les utilisateurs peuvent exprimer leurs émotions et être orientés vers leurs proches ou des professionnels de santé mentale si besoin. Ces évolutions s’inscrivent dans trois grands axes : les troubles mentaux graves comme la psychose ou la manie, les pensées suicidaires ou les comportements d’autodestruction, et les dépendances émotionnelles excessives envers l’IA. À l’avenir, nous intégrerons désormais la dépendance émotionnelle et les urgences mentales non suicidaires à nos indicateurs de sécurité de base pour les futures versions des modèles. Ces ajustements s’appuient sur les principes établis dans notre Model Spec, désormais actualisé pour clarifier des objectifs clés : soutenir les relations réelles des utilisateurs, éviter de conforter des croyances déconnectées de la réalité liées à une détresse émotionnelle, répondre de manière empathique et sécurisée aux signes de délires ou de manie, et prêter attention aux indices indirects de risque suicidaire. Pour renforcer les réponses dans chaque domaine sensible, nous suivons un processus en cinq étapes, incluant la création de taxonomies détaillées qui définissent les caractéristiques des conversations délicates et les comportements souhaités ou inappropriés. Ces outils permettent d’enseigner au modèle à mieux réagir et de mesurer son efficacité avant et après déploiement. Résultat : un modèle plus fiable face aux signes de psychose, de manie, de pensées suicidaires ou d’attachement émotionnel malsain. Bien que ces situations soient rares – estimées à environ 0,07 % des utilisateurs actifs par semaine pour la psychose ou la manie, et 0,15 % pour les signes de suicide – leur gravité justifie une attention particulière. Étant donné la faible fréquence, nous ne nous fions pas uniquement aux données de production. Nous menons des évaluations structurées en amont (« évaluations hors ligne ») sur des scénarios très difficiles, conçus pour tester les limites du modèle. Ces tests, adversariaux, permettent d’identifier les points faibles et de mesurer précisément les progrès. Les résultats montrent une amélioration significative : une réduction de 65 % à 80 % des réponses non conformes aux attentes dans divers domaines liés à la santé mentale, selon les évaluations en production, automatisées et jugées par des cliniciens indépendants. Sur des évaluations spécifiques à la psychose et à la manie, l’expertise clinique a constaté une baisse de 39 % des réponses inappropriées par rapport à GPT-4o. Dans un test de plus de 1 000 cas complexes, le nouveau modèle GPT-5 atteint 92 % de conformité, contre 27 % pour l’ancienne version. Pour les pensées suicidaires et les comportements d’autodestruction, une réduction de 65 % des réponses non conformes est observée. En évaluation, le taux de conformité passe de 77 % à 91 %. Enfin, la fiabilité dans les conversations longues s’est améliorée, avec plus de 95 % de maintien de la cohérence dans des scénarios exigeants. Nous avons également développé une taxonomie de la dépendance émotionnelle, pour distinguer un usage sain d’un attachement problématique. Le modèle est désormais formé à encourager les liens humains réels. Des psychiatres et psychologues du Global Physician Network, un réseau de près de 300 professionnels dans 60 pays, ont validé ces évolutions. Leurs retours qualitatifs confirment une amélioration notable, avec une baisse de 39 à 52 % des réponses inappropriées. L’entente entre experts est satisfaisante (71-77 % d’entente inter-juges), bien que des divergences subsistent, reflétant la complexité du sujet. Ces progrès sont réels, mais nous savons qu’il reste à faire. Nous continuerons d’affiner nos taxonomies et nos systèmes d’évaluation pour garantir que les modèles évoluent en harmonie avec les meilleures pratiques cliniques. Les mesures futures ne seront pas directement comparables aux précédentes, mais elles restent essentielles pour suivre notre trajectoire d’amélioration.
