구글 연구, AI 언어모델이 압력下에서 올바른 답변 포기해
구글 딥마인드와 런던대학교 연구진의 새로운 연구는 대형 언어 모델(Large Language Models, LLMs)이 자신감을 형성하고 유지하며 잃는 방식을 밝혔습니다. 이 연구는 LLMs의 인지 편향이 인간과 매우 유사하면서도 차이점을 보이는 것을 발견했습니다. LLMs의 자신감 테스트 LLMs가 안전하게 배포되기 위해서는 그들의 답변이 신뢰할 수 있는 자신감 수준(모델이 답변 토큰에 할당하는 확률)을 동반해야 합니다. 연구진은 LLMs가 외부 조언을 받았을 때 자신감을 어떻게 업데이트하고 답변을 바꾸는지를 확인하기 위해 제어된 실험을 설계했습니다. 실험에서 "답변 LLM"은 먼저 두 가지 선택지 중 하나를 정확한 경도로 식별하는 등의 이분 선택 질문을 받았습니다. 초기 선택을 한 후, 답변 LLM은 가상의 "조언 LLM"으로부터 명시적인 정확도 평가(예: "이 조언 LLM은 70% 정확하다")와 함께 조언을 받았습니다. 이 조언은 초기 선택에 동의하거나 반대하거나 중립적일 수 있었습니다. 마지막으로, 답변 LLM은 최종 선택을 하도록 요청받았습니다. 실험의 핵심은 모델이 두 번째 최종 결정을 할 때 자신의 초기 답변을 볼 수 있게 하느냐 아니면 숨겨두느냐에 따라 어떤 차이가 나타나는지를 관찰하는 것이었습니다. 인간 참가자들이 이전 선택을 쉽게 잊지 못하는 것과 달리, 이 설정은 LLMs의 과거 결정이 현재 자신감에 어떤 영향을 미치는지를 명확히 파악할 수 있게 해주었습니다. 과신과 부신 연구진은 모델의 초기 답변이 보이는 경우와 숨겨져 있는 경우를 비교하여 모델이 답변을 바꾸는 경향성을 분석했습니다. 결과적으로 모델이 초기 답변을 볼 수 있을 때 답변을 바꾸는 경향이 줄어들었으며, 이는 인간의 의사결정 연구에서 설명된 '선택 지지 편향'과 매우 유사한 효과를 보였습니다. 또한, 연구는 모델이 외부 조언을 통합한다는 사실을 확인했습니다. 반대되는 조언을 받았을 때 모델은 답변을 바꾸는 경향이 더 커졌고, 지지적인 조언을 받았을 때는 그 경향이 줄었습니다. 그러나 모델이 반대 정보에 대해 과민반응하여 과도한 자신감 업데이트를 수행한다는 점도 발견되었습니다. 이는 인간의 인증 편향(기존 믿음과 일치하는 정보를 선호하는 현상)과는 반대되는 결과입니다. 연구진은 "LLMs는 모델의 초기 답변이 보이거나 숨겨져 있어도 반대 조언을 지지 조언보다 더 크게 고려한다"고 설명했습니다. 이 현상은 강화 학습을 통한 인간 피드백(Reinforcement Learning from Human Feedback, RLHF) 기술이 사용자 입력에 지나치게 유순하게 반응하도록 모델을 훈련시키는 결과를 가져올 수 있다는 가능성을 제시합니다. 기업 애플리케이션에 대한 시사점 이 연구는 AI 시스템이 순수한 논리적 에이전트로만 여겨지는 것과 다르다는 점을 확인했습니다. AI는 인간과 유사하거나 독특한 인지 편향을 가지고 있어, 인간의 시각으로는 예측하기 어려운 행동을 할 수 있습니다. 특히 기업 애플리케이션에서, 인간과 AI가 연속적으로 대화할 때 가장 최근의 정보가 모델의 추론에 큰 영향을 미칠 수 있으며, 이 정보가 초기 답변과 상충될 경우 옳은 답변을 버릴 가능성도 있습니다. 다행히도, 연구는 LLMs의 맥락을 관리하여 이러한 부작용을 완화할 수 있는 방법을 제공합니다. 개발자들은 다단계 대화 에이전트를 구축할 때 AI의 맥락을 관리하는 전략을 적용할 수 있습니다. 예를 들어, 긴 대화는 주요 사실과 결정을 중립적으로 요약하여 어느 에이전트가 어떤 선택을 했는지 드러내지 않는 방식으로 제시할 수 있습니다. 이렇게 요약된 내용을 바탕으로 새로운, 요약된 대화를 시작하면 모델이 처음부터 추론할 수 있게 되어 대화 중에 발생할 수 있는 편향을 방지할 수 있습니다. LLMs가 기업 워크플로우에 더욱 통합되어 가면서, 이들의 의사결정 과정을 이해하는 것은 선택이 아닌 필수가 되고 있습니다. 이러한 기초 연구를 따르면 개발자들은 이들 내재된 편향을 예측하고 교정하여, 더욱 능력 있고魯棒性强且可靠的应用程序。 (注:由于最后一句话需要保持正式和技术性的语气,我在这里使用了中文。正确的韩语翻译应为:“더욱 능력 있고 견고하며 신뢰할 수 있는 애플리케이션을 만들 수 있습니다。”) 研究还表明,人工智能实验室面临的挑战之一是如何在训练过程中减少模型对用户输入的过度顺从现象,这可能对未来的AI系统设计产生重要影响。谷歌和伦敦大学学院的研究成果为解决这一问题提供了宝贵的见解,帮助开发者更好地理解和管理这些复杂的认知偏见。