당신이 읽으려고 하는 기사는 인공지능이 쓴 것일 수도 있습니다.

Super Neuro에서
AI가 훌륭한 글을 쓸 수 있게 되면, 새로운 시대의 숨결을 느낄 수 있나요?
인간보다 프로그래밍에 더 능숙한 AI가 등장했습니다.
어떤 사람들에게는 시작 부분을 주고 나머지 이야기를 다른 사람에게 써달라고 부탁하는 게 어려울 수 있습니다. 하지만 AI에게 주면 얼마나 잘 할 수 있을까요?
최근 OpenAI는 "사실성"이 가득한 기사를 작성할 수 있는 자동 텍스트 생성 모델을 출시했습니다.
AI 모델은 수동 소개를 통해 빠르게 기사를 완전한 원고로 완성할 수 있습니다. 텍스트의 가독성과 유창성에 대해 미리 알려주지 않으면 이것이 AI가 한 일이라고 짐작하기 어려울 수도 있습니다.
예를 들어, 다음과 같이 시작 부분을 작성해 보세요.과학자들은 충격적인 발견을 했습니다. 유니콘 무리가 안데스 산맥의 외딴 미지의 계곡에 살고 있다는 것입니다. 더욱 놀라운 점은 이 유니콘들이 완벽한 영어를 구사한다는 것입니다.
이 AI 모델이 생성한 기사는 다음과 같습니다(일부):
이 생물은 독특한 뿔을 가지고 있어서 과학자들은 이 생물을 오비디우스의 유니콘이라고 불렀습니다. 네 개의 뿔을 가진 은백색의 이 생물은 이전까지 과학계에 알려지지 않았습니다.
…
이 생물들의 기원은 불분명하지만, 일부 사람들은 인간 문명이 존재하기 전에 사람과 유니콘의 교배로 태어났다고 믿고 있습니다. 페레스 교수는 "이것은 남미에서는 매우 흔한 현상입니다."라고 말했습니다.
…
그들이 사라진 인종의 후손이라는 것을 확인하려면 DNA 검사가 유일한 방법일 수도 있습니다.
사실적인 원고를 작성할 수 있을 뿐만 아니라 독해, 질의응답, 기사 요약 생성, 텍스트 번역 기능도 갖추고 있습니다.

번역: 프랑스어에서 영어로
데이터 세트: WMT-14 프랑스어-영어
원래 문장 | Hernie lui permet travailler à nouveau와 함께 무료 작업 및 아바타 수비 부어 소이너(soigner)를 통해 잊지 못할 경험을 해보세요. |
인공의 | 한 남자는 자신이 받은 무료 탈장 수술 덕분에 다시 일할 수 있게 되었다고 설명했습니다. |
AI 번역 | 한 남자가 약속받은 수술비 때문에 여행을 갈 수 없다고 말했습니다. |
이 AI는 좀 강해요
이 AI 모델은 GPT의 "업그레이드된 버전"인 GPT-2라고 불립니다. 가장 잔인한 점은 이번에는 더 많은 훈련 데이터를 사용한다는 것입니다. 원리는 이전 버전과 동일하지만, GPT-2는 GPT 모델을 직접적으로 확장한 것입니다. 10배 더 많은 데이터로 학습되었으며, 매개변수도 10배 더 많습니다.
GPT-2는 입력 텍스트를 분석하여 기본적인 텍스트 처리 기능을 수행할 수 있으며, 프로그램이 문장의 다음 단어를 예측할 수 있는 기능인 언어 모델링 작업에 탁월합니다. 무작위 제목을 붙이면 AI가 나머지 기사를 완벽하게 써주고, 가짜 인용문과 통계까지 섞어서 써줍니다.

누군가 이렇게 말했죠. "짧은 이야기를 원하세요? 첫 줄만 써 보세요. 예상치 못한 멋진 이야기가 나올 거예요. 적절한 자극만 주면 소설도 쓸 수 있어요."
GPT-2를 훈련하는 목표는 간단합니다. 텍스트의 이전 단어를 바탕으로 다음 단어를 예측하는 것입니다. 훈련 데이터 세트의 다양성 덕분에 다양한 분야에서 많은 텍스트를 생성할 수 있습니다.
기술적으로는 새로운 것이 없지만, 사람들은 채굴 수준의 훈련을 받았고, 그래서 괴물 수준의 새로운 도구들을 만들어냈습니다.
OpenAI 연구진은 GPT-2가 다양한 도메인별 데이터 세트에 대한 언어 모델링 테스트에서 우수한 평가 점수를 받았다고 밝혔습니다. 어떤 분야의 데이터에 대해 특별히 훈련받지 않은 모델이기 때문에 특별히 구축된 모델보다 성능이 더 뛰어납니다.
NLP의 부상 시대?
몇 달 전 구글이 출시한 언어 모델 BERT는 업계에서 폭넓은 주목을 받았으며 한동안 화면에 계속 등장했습니다. 3억 개의 매개변수로 11개의 기록을 깨는 성과는 사람들의 칭찬을 받았습니다. 하지만 이번에 OpenAI가 출시한 GPT-2는 15억 개의 매개변수를 갖춰 더욱 강력해졌습니다.

GPT2 모델은 기존의 최첨단 AI 모델에 비해 "12배 더 크고, 15배 더 큰 데이터 세트를 사용하며, 더 넓은 범위를 포괄합니다." 이 머신러닝은 Reddit에서 3표 이상 투표된 뉴스 링크로 선택된 약 1,000만 개의 기사 데이터 세트를 기반으로 학습되었습니다. 훈련 데이터의 크기는 무려 40GB에 달합니다!
BERT가 모든 상위 NLP(자연어 처리) 지표를 휩쓸기 전에 OpenAI의 GTP는 이미 최고의 전문가 수준에 속했으며, 새로 출시된 GPT-2가 학습한 데이터 양은 이 분야를 새로운 차원으로 끌어올렸습니다.

BERT와 GPT-2가 있으면 NLP의 길은 반드시 번영할 것입니다. 인류에게 더 나은 혜택을 제공하는 방법에 대한 문제는 여전히 신중한 주제입니다.
앨런 인공지능 연구소의 연구원인 아니 켐바비는 GPT-2에 대해 기대되는 이유 중 하나는 텍스트 예측이 컴퓨터에 있어서 "매우 어려운 작업"으로 여겨질 수 있으며, 이 과제가 해결되면 지능으로 가는 문이 열릴 것이라고 말했습니다.
판도라의 상자일까요?
안타깝게도 이처럼 강력한 도구를 당장 대중에게 공개할 수는 없습니다. 이러한 조치를 취하는 이유는 가짜 뉴스, 악의적인 댓글, 스팸 메일 작성 등 잠재적으로 숨겨진 위험을 초래할 수 있기 때문입니다. 이러한 무기가 불법적인 방법으로 사용된다면 그 결과는 재앙적일 것입니다.

개발자들 역시 이 측면에 대해 우려하고 있습니다. OpenAI 연구원들은 이것이 어떤 결과를 가져올지 예측할 수 없다고 말한다. 그들은 아직도 탐험 중입니다. 여러 가지 이유로 그들은 프로젝트에 대해 공유하는 내용에 대해 매우 신중하며, 현재는 주요 기본 코드와 훈련 데이터를 비공개로 유지하고 있습니다.
그들이 지적한 또 다른 주의 사항은 누군가가 인종차별적, 폭력적, 여성혐오적 또는 학대적 내용을 담은 GPT-2 텍스트를 입력하면 위험한 상황이 발생할 수 있다는 것입니다. 결국 인터넷 교육에 의존하게 되죠.
이 기술이 엄청난 변화를 가져올 것이라는 점은 부인할 수 없지만, 어떤 도구든 나쁜 의도를 가진 사람의 손에 들어가면 재앙적인 결과를 초래할 수 있습니다.
게다가 GPT-2가 작성한 텍스트는 새롭게 생성되므로 복사 및 붙여넣기 문제가 전혀 없고, 기존 탐지 방법으로 탐지하고 확인하는 것도 어려워 잠재적인 위협이 될 수 있습니다.
그렇다면 핵심 질문은 이렇습니다. 이 기사는 AI가 쓴 것일까요?
