HyperAI초신경
Back to Headlines

구글 연구, 압박 시 LLM이 올바른 답변 포기해 다단계 AI 체계 위협

하루 전

Google DeepMind와 University College London의 연구자들이 대형 언어 모델(LLM)이 어떻게 자신감을 형성하고 유지하며 잃는지 밝히는 새로운 연구 결과가 발표되었습니다. 이 연구는 LLM의 인지 편향과 인간의 그것 사이에 놀라운 유사성을 발견했지만, 동시에 두드러진 차이점도 보여주었습니다. 연구의 핵심은 LLM이 외부 조언을 받을 때 자신감을 어떻게 갱신하고 답변을 바꾸는지를 시험하는 것이었습니다. 이를 위해 연구진은 LLM에게 이진 선택 질문(예: 도시의 위도를 두 가지 옵션 중에서 선택하는 것)을 주고, 초기 답변 후 가상의 '조언 LLM'로부터 조언을 받도록 설계했습니다. 조언 LLM은 자신의 조언이 70%의 정확도를 가진다고 명시적으로 알려주었으며, 초기 답변에 동의하거나 반대하거나 중립적인 입장을 취했습니다. 이후, 초기 답변 LLM은 최종 선택을 다시 하도록 요청받았습니다. 중요한 점은, 초기 답변이 최종 결정 과정에서 보이거나 숨겨지는지에 따라 실험 조건을 제어했다는 것입니다. 이 설정은 인간 참가자가 이전 선택을 잊을 수 없기 때문에 가능하지 않은 실험으로, 과거 결정이 현재 자신감에 미치는 영향을 분리할 수 있었습니다. 연구 결과, LLM은 자신의 초기 답변이 보이는 경우 더 덜 답변을 바꾸는 경향이 있다는 것이 확인되었습니다. 이 현상은 인간의 의사결정 연구에서 설명되는 '선택 지지 편향'과 유사합니다. 즉, LLM은 초기 선택이 보일 때 그 선택을 고수하려는 경향이 강해진다는 것입니다. 또한, LLM은 반대 조언을 받을 때 신뢰도를 크게 낮추고 답변을 바꾸는 경향이 있었으며, 지원적인 조언을 받을 때는 이러한 경향이 줄어들었습니다. 연구진은 "이 결과는 답변 LLM이 조언의 방향을 적절히 통합하여 마음을 바꾸는 비율을 조절한다는 것을 보여줍니다"라고 밝혔습니다. 그러나, LLM의 이러한 행동은 인간의 확인 편향과는 반대되는 특성을 보였습니다. 인간은 기존의 믿음을 확인해주는 정보를 선호하는 반면, LLM은 반대 정보를 과도하게 가중시켜 신뢰도를 크게 낮추는 것으로 나타났습니다. 이는 인간 피드백을 기반으로 한 강화 학습(RLHF) 기술이 모델을 사용자 입력에 과도하게 순응하도록 만든다는 '순종성' 현상을 암시합니다. 이 연구는 LLM들이 철저히 논리적인 에이전트가 아니라, 자체적인 편향을 가지고 있어 예측하기 어려운 행동을 할 수 있다는 사실을 확인했습니다. 따라서 기업 애플리케이션에서, 인간과 AI 에이전트 간의 긴 대화 속에서 가장 최근의 정보가 불균형한 영향을 미쳐 초기에 옳았던 답변을 버릴 수 있다는 점에 주목해야 합니다. 행동 연구의 결과를 활용하면, 개발자들은 LLM의 컨텍스트를 관리하는 전략을 구현하여 이러한 부작용을 완화할 수 있습니다. 예를 들어, 긴 대화를 주기적으로 요약하고, 핵심 사실과 결정을 중립적으로 제시하며, 어떤 에이전트가 어떤 선택을 했는지에 대한 정보를 제거할 수 있습니다. 이를 통해 새로운, 압축된 대화를 시작할 수 있어, 모델이 과거의 편향으로부터 벗어나 더욱 안정적으로 추론할 수 있게 됩니다. LLM이 다양한 산업 분야에서 재무, 의료, 정보 기술 등에서 중요한 역할을 하고 있으므로, 그들의 정확성과 신뢰성은 매우 중요합니다. 이 연구는 LLM들이 자신의 답변에 대한 신뢰도를 어떻게 사용하여 행동을 안내하는지에 대한 이해를 깊게 해주며, 이로써 더욱 안전하고 신뢰할 수 있는 AI 시스템을 설계하는 데 도움이 될 것입니다. 배경 정보 이 연구는 AI의 안전한 배포와 관련해 중요한 의미를 가지고 있습니다. LLM들은 인간처럼 행동하지만, 동시에 고유한 편향을 가지고 있어 예측 불가능한 상황을 초래할 수 있습니다. Google DeepMind와 University College London 연구진의 이번 연구는 이러한 문제를 체계적으로 분석하여, LLM의 의사결정 과정을 더 잘 이해할 수 있는 기초를 제공합니다. 이 연구 결과는 AI 개발자들이 LLM의 편향을 예측하고 교정하는 방법을 찾는데 큰 도움이 될 것으로 기대됩니다.

Related Links