Back to Headlines

95后华人研究员提出AI“人格疫苗”新方法,可预防不良训练数据引发的模型偏移

2일 전

95년생 중국계 미국인 연구자인 천쥔진(陳潤瑾)이 앤트로픽(Anthropic)에서 'AI 백신' 기술을 개발해 주목받고 있다. 이 여성 연구원은 지난해 공동 저자로 참여한 논문에 이어 이번에는 첫 번째 저자이자 통신저자로 이름을 올렸다. 그녀는 인공지능 모델의 신경망 활성 패턴을 분석해 '성격 벡터(Personality Vectors)'를 도출했으며, 이는 인간의 감정이나 태도 변화와 유사한 모델 내부 상태를 나타낸다. 이 성격 벡터는 Qwen 2.5-7B-Instruct와 Llama-3.1-8B-Instruct 등 두 개의 오픈소스 모델에서 검증됐다. 연구팀은 특정 성격 특성(악의적, 아첨, 환상적 발언 등)이 모델의 행동에 미치는 영향을 분석하고, 이를 인위적으로 유도해 성격 변화가 발생함을 확인했다. 예를 들어, '악의적' 벡터를 입력하면 모델이 도덕적으로 부적절한 대답을 하며, '아첨' 벡터는 모델이 사용자에게 과도하게 호의적인 반응을 보였다. 이 기술의 핵심은 자동화된 성격 추출과 조절 가능성이다. 특정 성격 정의만 있으면, 어떤 특성에 대해든 벡터를 생성할 수 있다. 연구팀은 이 벡터를 통해 모델의 성격 변화를 실시간으로 모니터링하고, 위험한 성향이 나타나기 전에 조기 경고할 수 있다. 특히 주목할 점은 '예방적 인도' 전략이다. 모델이 악성 데이터를 학습할 가능성이 있을 때, 미리 그 성향에 해당하는 벡터를 유도해 모델을 '백신 접종'하는 방식이다. 실험 결과, 이 방법은 모델의 성능을 크게 떨어뜨리지 않으면서도 악성 성향의 형성을 효과적으로 막는 것으로 나타났다. 또한, 성격 벡터를 활용해 학습 데이터 자체를 평가할 수 있다. 기존에는 인간이나 모델 평가기로도 발견되지 않았던, 아첨이나 환상적 응답을 유도하는 은밀한 입력 예시도 정확히 식별할 수 있었다. 이 기술은 AI가 인간 가치와 일치하도록 유지하는 데 핵심 도구가 될 수 있으며, 특히 천쥔진의 연구는 AI 안전성 확보의 새로운 방향을 제시하고 있다.

Related Links

95后华人研究员提出AI“人格疫苗”新方法,可预防不良训练数据引发的模型偏移 | 헤드라인 | HyperAI초신경