HyperAI초신경

AI 시인이 중추절 분위기에 대해 글을 쓸 수 있을까?

6년 전
정보
Dao Wei
特色图像

아마도 모든 사람이 마음속으로 시인이 되는 꿈을 꾸고 있을 것입니다. 고대 문인들처럼 세련된 시로 자신의 감정을 표현하고 싶어하는 마음에서입니다. 예를 들어, 중추절에는 친척과 친구들에게 축복을 전하기 위해 시를 쓸 수 있습니다. 하지만 불행히도 시를 쓰는 것은 생각만큼 간단하지 않습니다. 하지만 인공지능 기술은 이미 시인이 되는 꿈을 실현할 수 있습니다. 화웨이 노아의 방주 연구소의 최신 "웨푸 AI"는 주제만 주어지면 몇 초 안에 시를 생성할 수 있습니다. 와서 시를 써 보세요!

중추절은 어떻게 보냈나요? 이러한 재회와 달구경의 축제는 고대부터 현재까지 수많은 문인들에게 영감을 주었으며, 시대를 초월한 수많은 시를 남겼습니다.

중추절의 아름다운 보름달과 아름다운 꽃들에 둘러싸여 고대인들은 찬송을 부를 수 있었습니다. "밝은 달이 바다 위로 떠오르고, 전 세계 사람들이 이 순간을 공유합니다."가장 아름다운 시이지만, 이제 대부분의 사람들은 무한한 감정을 무력하게 문장으로만 표현할 수 있습니다. "아, 달이 참 둥글구나."

아마도 "지는 해와 외로운 기러기가 함께 날고, 가을 물과 하늘은 같은 색이다"와 "정말 큰 새다" 사이의 거리일 것이다.

하지만 슬퍼하지 마세요. 이제 AI가 우리가 이런 거리를 좁히는 데 도움을 줄 수 있습니다.허락하다누구나 쉽게 시를 쓰고 시인이 될 수 있습니다!

화웨이, '월복시(月福詩)' 애플릿 출시

최근에,화웨이의 EI Experience Space 애플릿에 새로운 기능인 웨푸시가 출시되었습니다.주제를 정하고, 단어 수와 장르(4행시나 규제된 운문)를 선택하면 즉시 시를 만들 수 있습니다. 예를 들어, 입력 중추절:

달 관찰:

머신 러닝:

"일체 포함":

제가 말하지 않았더라도, 이 시들이 AI가 쓴 것이라고 알 수 있을까요? 올해 6월에는화웨이 노아의 방주 연구소논문을 게재했습니다"중국 고전시를 위한 GPT 기반 세대"모델의 학습 과정과 결과 발표에 대한 세부 내용을 담고 있습니다.

일반적으로 이 시 생성 모델의 핵심 기술은 강력한 GPT 모델.

GPT는 다음으로 구성됩니다. 오픈AI  제안된 사전 학습된 자연어 모델의 핵심 개념은 먼저 레이블이 지정되지 않은 텍스트를 사용하여 생성된 언어 모델을 학습한 다음, 특정 작업에 따라 레이블이 지정된 데이터를 통해 모델을 미세 조정하는 것입니다.연구팀은 먼저 대규모 중국 뉴스 코퍼스를 사용하여 중국 GPT 모델을 훈련시켰습니다.그런 다음 중국 고전 시를 코퍼스로 사용하고 이를 미세 조정하여 시 생성 시스템인 웨푸 AI를 개발했습니다.

노아의 방주 팀은 4행시와 규칙적인 운문 외에도 미세 조정 방법을 사용하여 머리글자시를 생성하는 방법을 학습시켰습니다.

게다가 AI가 스스로 시를 쓰는 법을 배울 수 있도록 이 GPT 모델에는 아무런 설정이 없습니다. 시를 쓰는 데 필요한 단어의 수, 리듬, 음운론, 반의어에 대한 지식은 정해져 있지 않습니다. 이 모델은 고대 시 데이터로부터 스스로 이러한 모든 것을 학습합니다.

"월부AI"와 비교하면, 오랫동안 중국어를 공부했지만 여전히 제대로 된 시를 쓸 수 없는 인간들은 정말 감탄하며 한숨을 쉬게 될 것입니다. 

AI가 시를 쓰는 법을 배우는 과정에 대한 자세한 설명

고전 중국시의 생성은 자연어 생성 분야에서 흥미로운 과제입니다.

자유 텍스트 생성과 달리 고전 중국 시는 일반적으로 형식과 내용 면에서 특정 요구 사항을 충족해야 합니다. 예를 들어단어 수, 운율, 어조 및 병렬성기다리다. 또한, 내용은 시 전체의 주제가 일관되고 일관성이 있어야 한다는 것을 요구합니다.

수시의 '물의 노래'는 너무나 귀에 잘 들려서 이제는 노래로 만들어졌다.

또한, 중국 고전시에는 오언시, 규율시, 칠언시, 규율시 외에도 만강홍, 수조거두 등의 사시형과 연행 등 다양한 형태가 있습니다. 그러므로,인공지능 방법을 이용해 중국 고전시를 제작하는 것은 비교적 복잡합니다.화웨이 노아의 방주 연구실의 과학자들은 주어진 형식과 특정 주제를 가지고 시를 생성하는 문제를 연구하고, 사전 훈련된 모델 GPT를 기반으로 한 시 생성 방법을 제안했습니다.

해당 방법에 대한 구체적인 내용은 다음과 같습니다."Yuefu AI"는 Transfomer를 기본 모델로 사용하고 BERT 소스 코드를 기반으로 자체 GPT 모델을 구현했습니다.Transformer 크기 구성은 BERT-Base와 동일하며, BERT에서 공개된 토큰화 스크립트와 중국어 어휘를 채택했습니다. 텍스트 생성을 위해 잘린 부분을 구현했습니다. Top-k 샘플링다양한 텍스트를 생성합니다.

Yuefu AI가 생성한 3편의 시와 1편의 오리지널 시


Yuefu AI로 시 쓰기를 배우는 과정은 세 단계로 나뉩니다.

1단계: 데이터 처리

Huawei Noah's Ark Lab의 GPT 모델은 중국 뉴스 코퍼스를 사용하여 훈련되었습니다. 데이터 학습은 주로 다음과 같이 구분됩니다.사전 훈련 및 미세 조정두 단계. 세부 조정을 위해 그들은 공개적으로 이용 가능한 중국 고전 시를 수집한 다음 샘플 시를 형식화된 시퀀스로 변환했습니다.

데이터 학습 프로세스

2단계: 모델 학습

그런 다음 그들은 뉴스 코퍼스를 이용해 클라우드 서비스에서 GPT 모델을 사전 훈련시켰는데, 이 과정에 90시간이 걸렸습니다. 그런 다음 8개의 NVIDIA V100(16GB)을 사용하여 4개 에포크 동안 훈련했습니다. 훈련 후, 우리는 모든 시 훈련 시퀀스를 변환기에 공급하고 자기회귀 언어 모델을 훈련하여 모든 시퀀스 X를 관찰할 확률을 최대화함으로써 미세 조정을 수행합니다.

3단계: 시의 생성

훈련이 완료되면, 해당 모델은 요청에 따라 특정 주제에 대한 시를 생성하는 데 적용됩니다. 그들은 먼저 형식과 주제를 다음과 같이 변형했습니다. [양식, 식별자1, 주제, 식별자2]그런 다음 초기 시퀀스가 모델에 제공되고 신체 필드가 하나씩 디코딩됩니다.

디코딩하는 동안 형식의 정확성을 보장하기 위해 어떠한 엄격한 제약도 필요하지 않습니다. 대신 모델은 디코딩할 수 있습니다.쉼표와 마침표의 위치를 자동으로 지정합니다.시가 완성되면, 「이오스」토큰은 프로세스를 종료합니다.

"악부아이"는 시를 짓는 법을 배웠을 뿐만 아니라, 새로운 기술인 두문자시(頭文詩)도 터득했습니다.

두문자어 시의 경우에도 여전히 동일한 방법을 사용하여 훈련합니다. 그러나 두문자어 시 모델을 훈련할 때 이전 훈련 과정의 주제(예: "조용한 밤의 생각")를 시의 각 문장의 첫 글자(예: "침대가 낮게 올려져 있을 것으로 의심됩니다")로 대체했습니다. 

AI 시인이 가져온 놀라움

연구팀은 이러한 접근 방식으로 얻은 결과에 놀랐다.

그들은 이 모델이 규제된 시의 복잡한 페어링 규칙을 학습했다는 것을 발견했는데, 이는 모국어가 중국어이고 일반 교육을 받은 사람들조차도 익히기 어려운 것입니다(저는 많은 학생들이 저와 같은 생각을 하고 있다고 생각합니다).

생성된 4행시와 조절된 시에서 95% 이상은 좋은 성과를 보였지만, ci 측면에서는 약간 떨어졌습니다.그 이유는 아마도 4행시나 규제된 시구에 비해 시패의 형식이 비교적 복잡하고, 훈련 표본도 전자에 비해 훨씬 적기 때문일 것입니다.

4행시와 규제된 구절 모두에 대한 수만 개의 훈련 샘플이 있습니다.Ci 곡조에는 882가지 유형이 있습니다.그중 100개 이상의 훈련 샘플을 보유한 종은 104종에 불과하며, 가장 큰 샘플조차도 816개에 불과합니다.

"가을생각"이라는 주제를 기반으로 시스템이 생성한 다양한 장르의 시

또한 주어진 주제 내에서는 생성 결과가 대체로 좋지만, '기계 번역'과 같은 일부 주제의 경우 훈련 코퍼스에 거의 등장하지 않기 때문에 시를 생성하는 것이 어렵습니다. 반면, "가을에 대한 생각"과 같은 주제는 쉽게 만들어낼 수 있습니다.

팀은 소개했습니다.이 방법은 기존의 순환 신경망(RNN) 기반 방법보다 훨씬 간단합니다.그리고 더 나은 시를 쓸 수 있다.

시를 쓰는 법을 배우는 AI는 오래전부터 존재해 왔다

어떤 사람들은 중국이 시의 나라라고 말합니다. 고대부터 현재까지 문인과 젊은 예술가들은 항상 시를 쓰는 데 열정을 쏟았습니다. 과학과와 공학을 전공하는 학생들 중 대다수도 여전히 기술을 이용해 낭만적인 감정을 표현하고 있습니다.

2017년 12월, 청화대학교 연구팀이 개발한 시 낭송 로봇 "아홉 곡"그는 CCTV 프로그램 '슈퍼스마트'에 출연해 그가 쓴 시는 시청자들에게 큰 놀라움을 안겨주었습니다.

'지우거'는 딥러닝을 기반으로 80만 편 이상의 시를 학습한 후 시를 쓰는 법을 배웠습니다. 다양한 모드의 입력, 다양한 장르와 스타일, 인간과 컴퓨터가 상호 작용하는 창작 모드의 특징을 갖추고 있습니다.

고대시 외에도 현대시 역시 AI에게는 문제가 없는 것으로 보인다.마이크로소프트 샤오아이스가 시집을 출판했습니다.해외에는 다양한 언어로 AI 시 생성 도구가 존재합니다. 

AI가 정말로 시를 쓸 수 있을까? 아니면 그저 만들어내는 것일 뿐일까?

AI가 시를 쓴다는 것은 칭찬받는 사람도 있고, 비판받는 사람도 있다는 뜻이다.

상하이 시 협회 이사인 류루닝은 시를 쓰는 속도에 있어서는 인간이 컴퓨터를 이길 수 없지만, 자신이 하루에 쓴 시는 컴퓨터가 천 페이지 분량으로 쓸 수 없다고 말한 적이 있다. 덩완잉 감독은 AI 시의 특징은 "시는 있지만 텍스트가 없다"는 것이라고 말했습니다.

영감이 넘쳐흐르는 문인과 시인의 작품과 비교해보면, AI가 쓴 시는 '감정이 없는 작가'라고 할 수 있다. 그들은 방대한 양의 텍스트에서 시의 패턴을 발견하고, 완전하지만 잠재적으로 무의미한 구절들을 "조각으로 모읍니다".

하지만 연구자들에게 AI 시 쓰기는 기술적 능력의 시연에 가깝고, 그들은 AI 시 쓰기의 기반이 되는 NLP 기술의 발전을 높이 평가합니다.

또한 일반인들에게도 AI 시 쓰기 도구는 누구나 시를 통해 자신의 감정을 창작하고 표현할 수 있게 해줍니다. 오락 도구로도 좋습니다. AI에게도 시간을 주고, 그것이 세상에 더 많은 놀라움을 가져다 줄 것이라고 믿어보자.

-- 위에--