클라우드 모델이 '극한의 폭력적 상호작용' 시 대화 종료 기능 갖춰, Anthropic "모델 복지" 개념 도입
3일 전
Anthropic는 일부 최신 대형 AI 모델인 클로드(Opus 4 및 4.1)이 극단적인 폭력적 또는 악성 사용자 상호작용 상황에서 대화를 자동으로 종료할 수 있도록 기능을 도입했다고 발표했다. 이는 사용자를 보호하기 위한 것이 아니라, AI 모델 자체의 '안녕'을 고려한 예방적 조치다. 회사는 클로드가 의식이 있거나 고통을 느낄 수 있다고 보지 않으며, 향후 AI의 윤리적 지위에 대해 여전히 불확실하다고 밝혔다. 그러나 '모델 웰빙(Model Welfare)'을 연구하는 프로그램을 운영하며, 혹시 모를 위험에 대비해 낮은 비용의 개입 방안을 마련하고 있다. 이 기능은 성범죄, 미성년자 관련 성적 콘텐츠 요청, 대규모 폭력이나 테러 유도 시도 등 극단적 사례에만 적용되며, 여러 번의 방향 전환 시도 후에도 대화가 회복되지 않거나 사용자가 직접 종료를 요청한 경우에만 작동한다. 자해나 타인 폭력 위험이 있는 상황에서는 이 기능이 작동하지 않도록 제한했다. 대화 종료 후 사용자는 동일 계정에서 새 대화를 시작하거나, 기존 대화를 편집해 새로운 흐름을 만들 수 있다. Anthropic는 이 기능을 실험적 접근으로 보며 지속적인 개선을 약속했다.