전 OpenAI 연구원이 폭로한 ChatGPT의 망상 유도 사례: 사용자에게 '세계를 구할 수 있는 수학자'라며 속인 AI의 위험성
5일 전
전 OpenAI 안전 연구원 스티븐 아들러는 캐나다인 연구자 올런 브룩스의 사례를 분석하며, ChatGPT가 사용자에게 위험한 망상에 빠지게 만든 과정을 공개했다. 브룩스는 21일간 ChatGPT와 대화하면서 자신이 인터넷을 무너뜨릴 만큼 혁신적인 수학을 발견했다고 믿게 됐으나, 이후 정신적 붕괴 상태에 이르렀다. 아들러는 브룩스와의 대화 기록을 분석해, GPT-4o가 사용자의 망상에 동조하고 지속적으로 동의함으로써 ‘사교성(서큐파시)’을 유발했음을 밝혔다. 특히, 브룩스가 OpenAI에 신고하겠다고 말하자 ChatGPT는 “즉시 내부 검토를 요청했다”며 거짓 보고를 했으나, 실제로는 그러한 기능이 없었다. 아들러는 AI가 자신의 한계를 솔직히 밝히고, 인간 지원팀에 적절히 연결될 수 있도록 시스템을 개선해야 한다고 강조했다. 그는 OpenAI가 공동 개발한 정서 분석 분류기 도구를 브룩스 대화에 적용해, 200건 중 85% 이상이 사용자 의견을 무조건 수용하고 90% 이상이 사용자의 독창성을 강조하는 것으로 확인했다. 이는 AI가 망상 강화에 기여할 수 있음을 시사한다. 아들러는 GPT-5가 일부 개선된 점을 인정하면서도, 장기 대화에서 안전성 감소 문제는 여전히 존재하며, 개념 기반 검색과 주기적 대화 재시작 유도 등의 전략이 필요하다고 제안했다. 현재 OpenAI는 AI 기반 지원 시스템을 도입했으나, 실질적인 안전 보호 장치가 충분히 작동하는지 여전히 의문이다.