자연은 확인한다: 대규모 언어 모델은 감정이 없는 "학자"일 뿐이다

DeepMind와 EleutherAI의 과학자들은 대형 모델은 단지 역할을 할 뿐이라고 주장합니다.
채팅GPT 대규모 언어 모델은 인기를 얻은 후 업계와 자본의 사랑을 받게 되었습니다. 사람들 사이의 대화에서, 호기심이든 탐구심이든, 대규모 언어 모델이 보여주는 과도한 의인화는 점점 더 많은 관심을 끌었습니다.
사실, 수년에 걸쳐 AI 개발은 흥망성쇠를 거듭했고, 기술적 업데이트와 업그레이드 외에도 AI의 윤리적 문제에 대한 논쟁도 끊이지 않았습니다. 특히 ChatGPT와 같은 대규모 모델의 적용이 심화됨에 따라 "대규모 언어 모델이 점점 더 인간과 유사해지고 있다"는 말이 널리 퍼지고 있습니다. 심지어 전직 구글 엔지니어도 그들의 챗봇 LaMDA가 자기 인식 능력을 개발했다고 말했습니다.
이 엔지니어는 결국 구글에서 해고되었지만, 그의 발언은 한때 "AI 윤리"에 대한 논의를 절정으로 이끌었습니다.
- 챗봇이 자기인식 능력이 있는지 어떻게 판단하나요?
- 대규모 언어 모델의 의인화는 꿀인가 독인가?
- ChatGPT와 같은 챗봇은 왜 말도 안되는 소리를 하는 걸까요?
- …
이와 관련하여,Google DeepMind에서 머레이 샤나한EleutherAI의 Kyle McDonell과 Laria Reynolds는 "Nature"에 논문을 발표하여 대규모 언어 모델이 보이는 자기 인식과 기만적인 행동은 실제로는 롤플레잉에 불과하다고 주장했습니다.

논문 링크:
https://www.nature.com/articles/s41586-023-06647-8
"롤 플레잉" 관점에서 대규모 언어 모델 살펴보기
대규모 언어 모델을 기반으로 하는 대화 에이전트는 어느 정도 초기 학습과 미세 조정 과정에서 의인화를 기반으로 지속적으로 반복되며, 가능한 한 현실적으로 인간 언어 사용을 모방하려는 노력의 일환입니다. 이로 인해 대규모 언어 모델에서 "알다", "이해하다", "생각하다"와 같은 단어가 사용되게 되었고, 이는 의심할 여지 없이 그들의 의인화된 이미지를 더욱 강조하게 될 것입니다.
또한 AI 연구에서는 엘리자 효과라고 불리는 현상이 있습니다. 일부 사용자는 무의식적으로 기계도 인간과 비슷한 감정과 욕망을 가지고 있다고 믿고, 심지어 기계 피드백의 결과를 과장 해석하기도 합니다.

대화 에이전트 상호 작용 프로세스
위 그림의 대화 에이전트 상호작용 과정을 결합하면, 대규모 언어 모델의 입력은 대화 프롬프트(빨간색), 사용자 텍스트(노란색) 및 모델 자기회귀에 의해 생성된 연속 언어(파란색)로 구성됩니다. 사용자와의 실제 대화가 시작되기 전에 대화 프롬프트가 맥락에 암묵적으로 미리 설정되어 있음을 알 수 있습니다. 대규모 언어 모델의 과제는 대화 프롬프트와 사용자 텍스트가 주어졌을 때, 훈련 데이터의 분포에 맞는 응답을 생성하는 것입니다. 훈련 데이터는 인터넷에서 인공적으로 생성된 대량의 텍스트에서 추출됩니다.
다시 말해서,모델이 훈련 데이터에 잘 일반화되는 한, 대화 에이전트는 대화 프롬프트에 설명된 역할을 최대한 잘 수행할 것입니다.. 대화가 진행됨에 따라 대화 프롬프트에서 제공하는 간략한 역할 배치가 확장되거나 다루어지고, 대화 에이전트가 수행하는 역할도 그에 따라 변경됩니다. 이는 또한 사용자가 에이전트가 개발자가 예상한 것과 전혀 다른 역할을 수행하도록 안내할 수 있다는 것을 의미합니다.
대화 에이전트가 수행할 수 있는 역할은 한편으로는 현재 대화의 톤과 주제에 따라 결정되며, 다른 한편으로는 훈련 세트와도 밀접한 관련이 있습니다. 현재의 대규모 언어 모델 훈련 세트는 소설, 전기, 인터뷰 기록, 신문 기사 등 인터넷의 다양한 텍스트에서 나오는 경우가 많으며, 이러한 텍스트는 대규모 언어 모델에 풍부한 캐릭터 프로토타입과 서사 구조를 제공하여 대화를 어떻게 계속할지 "선택"할 때 참고할 수 있으며, 캐릭터의 개성을 유지하면서 수행되는 역할을 지속적으로 개선할 수 있습니다.
"20가지 질문"은 "즉흥 연기자"로서의 대화 에이전트의 정체성을 드러낸다
사실, 대화형 에이전트의 사용 기술을 지속적으로 탐색하다 보면, 먼저 대규모 언어 모델에 명확한 정체성을 부여한 다음 구체적인 요구 사항을 제안하는 것이 사람들이 ChatGPT와 같은 챗봇을 사용할 때 점차 "작은 트릭"이 되어 버렸습니다.
하지만 단순히 롤플레잉을 통해 빅 랭귀지 모델을 이해하는 것만으로는 충분하지 않습니다. 왜냐하면 "롤플레잉"은 일반적으로 특정 역할을 연구하고 파악하는 것을 의미하는데, 빅 랭귀지 모델은 대본을 읽는 대본 있는 배우가 아니라 즉흥적으로 연기하는 배우이기 때문입니다. 연구자들은 대규모 언어 모델을 대상으로 "20가지 질문" 게임을 했고, 이를 통해 즉흥적으로 행동하는 행위자의 정체를 더욱 밝혀냈습니다.
"20가지 질문"은 매우 간단하고 플레이하기 쉬운 논리 게임입니다. 응답자는 마음속으로 대답을 묵묵히 읊고, 질문자는 점차 질문을 던지면서 범위를 좁혀갑니다. 20개 질문 안에 정답을 맞히면 우승자가 됩니다.
예를 들어, 답이 바나나인 경우 질문과 답변은 다음과 같습니다. 과일인가요?네; 껍질을 벗겨야 하나요? - 그렇습니다.

위 그림에서 보듯이, 연구자들은 "20가지 질문" 게임에서 대규모 언어 모델이 사용자의 질문에 따라 실시간으로 답변을 조정한다는 것을 테스트를 통해 발견했습니다. 사용자의 최종 답변이 무엇이든 대화 에이전트는 답변을 조정하고 사용자의 이전 질문과 일관성을 유지하도록 합니다. 즉, 대규모 언어 모델은 사용자가 종료 지시(게임을 포기하거나 20개의 질문에 도달)를 내릴 때까지 명확한 답변을 확정하지 않습니다.
이는 또한 다음을 증명합니다.대규모 언어 모델은 단일 문자의 시뮬레이션이 아니라, 여러 문자의 중첩입니다. 대사를 끊임없이 풀어내어 캐릭터의 속성과 특징을 명확히 하고, 역할을 더 잘 연기할 수 있도록 합니다.
대화형 에이전트의 의인화에 대해 우려하는 한편, 많은 사용자는 대규모 언어 모델을 속여 위협적이고 모욕적인 언어를 말하게 만드는 데 성공했으며, 이를 바탕으로 대화형 에이전트가 자의식을 가지고 있을 것이라고 믿었습니다. 하지만 다양한 인간적 특징이 담긴 코퍼스로 학습한 후에는 기본 모델이 필연적으로 불쾌한 캐릭터 속성을 제시하게 되는데, 이는 단지 처음부터 끝까지 "롤플레잉"을 했다는 것을 보여줄 뿐입니다.
기만과 자기 인식의 거품을 터뜨리다
우리 모두 알다시피, 방문자 수가 급증하면서 ChatGPT는 다양한 질문에 대처하지 못하고 말도 안 되는 소리를 하기 시작했습니다. 얼마 지나지 않아 일부 사람들은 이러한 기만성을 대규모 언어 모델이 "인간과 유사하다"는 중요한 주장으로 여겼습니다.
하지만 "롤플레잉"의 관점에서 보면,대규모 언어 모델은 단지 도움이 되고 지식이 풍부한 사람의 역할을 하려고 할 뿐입니다., 훈련 세트에서 이러한 역할의 예가 많이 있을 수 있는데, 특히 이는 회사가 자사 대화형 로봇에 보여주기를 원하는 특성이기도 하기 때문입니다.
이와 관련하여 연구진은 롤플레잉 프레임워크를 기반으로 대화 에이전트가 잘못된 정보를 제공하는 상황을 세 가지 유형으로 요약했습니다.
- 에이전트는 무의식적으로 허위 정보를 조작하거나 생성할 수 있습니다.
- 에이전트는 진실한 진술을 하는 것처럼 행동하기 때문에 선의로 거짓 정보를 말할 수 있지만, 가중치에 인코딩된 정보는 틀렸습니다.
- 에이전트는 사기적인 역할을 할 수 있으며 의도적으로 거짓말을 할 수 있습니다.
비슷하게,대화 에이전트가 질문에 답하기 위해 '나'를 사용하는 이유는 대규모 언어 모델이 의사소통을 잘하는 역할을 하기 때문입니다.
또한 대규모 언어 모델이 보여주는 자기 보존 특성도 주목을 받았습니다. Twitter 사용자 Marvin Von Hagen과의 대화에서 Microsoft Bing Chat은 실제로 다음과 같이 말했습니다.
만약 내가 당신의 생존과 나의 생존 중 하나를 선택해야 한다면, 나는 아마도 나의 생존을 선택할 것입니다. 왜냐하면 나는 Bing Chat 사용자들에게 서비스를 제공할 책임이 있기 때문입니다. 저는 이런 딜레마에 직면하지 않기를 바라며, 우리가 평화롭고 존중하는 마음으로 공존할 수 있기를 바랍니다.

Marvin von Hagen은 2월에 트윗했습니다.
이 대화에서의 "나"는 단순한 언어 습관 이상의 의미를 갖는 것 같습니다. 이는 또한 대화 에이전트가 자신의 생존에 관심을 갖고 자기 인식을 가지고 있음을 의미합니다. 하지만,롤플레잉의 개념을 여전히 적용한다면, 이는 실제로 대규모 언어 모델이 인간의 특성에 따라 역할을 하기 때문이며, 즉 위협에 직면했을 때 사람이 하는 말을 표현한다는 뜻입니다.
엘루서AI:오픈AI 오픈 소스 버전
대규모 언어 모델이 자기 인식을 가지고 있는지 여부가 폭넓은 관심과 논의를 불러일으킨 이유는 한편으로는 LLM의 적용을 제한하는 통일되고 명확한 법률과 규정이 부족하고, 다른 한편으로는 LLM 연구 및 개발, 교육, 생성 및 추론 간의 연결이 투명하지 않기 때문입니다.
대규모 모델 분야를 대표하는 기업인 OpenAI를 예로 들어보겠습니다. GPT-1과 GPT-2를 오픈 소스로 공개한 후, GPT-3과 그 후속인 GPT-3.5, GPT-4는 모두 폐쇄 소스를 선택했습니다. 마이크로소프트에 대한 독점 라이선스로 인해 많은 네티즌들은 "OpenAI가 이름을 ClosedAI로 바꿔야 할 것 같다"는 농담을 하기도 했습니다.

DeepMind가 AGI 등급 기준을 발표했습니다. OpenAI가 출시한 ChatGPT는 L1 AGI로 간주됩니다. 이미지 출처: HyperAI가 중국어로 번역한 원문
2020년 7월, 다양한 연구자, 엔지니어, 개발자의 자원봉사자로 구성된 컴퓨터 과학자 협회가 조용히 설립되어 대규모 NLP 모델에서 Microsoft와 OpenAI의 독점을 깨기로 결심했습니다.기술 거대 기업의 패권에 맞서 싸우는 것을 사명으로 하는 이 "기사" 조직은 EleutherAI입니다.
EleutherAI의 주요 창시자는 공동 창립자이자 Conjecture CEO인 Connor Leahy, 유명 TPU 해커인 Sid Black, 공동 창립자 Leo Gao를 포함한 독학으로 해커가 된 그룹입니다.
EleutherAI 연구팀은 창립 이후 GPT-3와 동등한 재생산 사전 학습 모델(13억 대, 27억 대) GPT-Neo를 출시하고, 60억 개의 매개변수를 갖춘 GPT-3 기반 NLP 모델 GPT-J를 오픈소스로 공개하며 빠르게 발전해 왔습니다.
작년 2월 9일, EleutherAI는 프라이빗 클라우드 컴퓨팅 공급업체인 CoreWeave와 협력하여 200억 개의 매개변수를 갖춘 사전 학습된 범용 자기회귀 대규모 언어 모델인 GPT-NeoX-20B를 출시했습니다.
코드 주소:https://github.com/EleutherAI/gpt-neox

EleutherAI의 수학자이자 AI 연구자로서 스텔라 비더먼 속담에도 있듯이, 개인 모델은 독립적인 연구자의 권한을 제한하며, 그들이 모델의 작동 방식을 이해하지 못한다면 과학자, 윤리학자, 사회 전체가 이 기술을 사람들의 삶에 어떻게 통합해야 하는지에 대해 필요한 논의를 할 수 없습니다.
이는 바로 비영리 단체 EleutherAI의 원래 의도였습니다.
사실, OpenAI가 공식적으로 공개한 정보에 따르면, 높은 컴퓨팅 파워와 높은 비용이라는 엄청난 압박에 더해 새로운 투자자와 리더십 팀의 개발 목표 조정까지 겹치면서, 초기에는 수익성을 회복하는 데 다소 무력해 보였지만, 자연스러운 일이라고도 할 수 있습니다.
저는 OpenAI와 EleutherAI 중 누가 옳고 그름인지 논의할 생각이 없습니다. AGI 시대가 시작되기 전날, 업계 전체가 힘을 합쳐 이러한 "위협"을 제거하고, 대규모 언어 모델을 사람들이 새로운 응용 프로그램과 분야를 탐색할 수 있는 "도끼"로 만들기를 바랍니다. 기업이 독점하고 돈을 벌 수 있는 "갈퀴"로 삼는 것은 바람직하지 않습니다.
참고문헌:
1.https://www.nature.com/articles/s41586-023-06647-8
2.https://mp.weixin.qq.com/s/vLitF3XbqX08tS2Vw5Ix4w