HyperAI초신경

내년에는 AI를 활용해 마을 전체의 연을 써보겠습니다.

4년 전
헤드라인
정보
神经小兮
特色图像

연말, 음력 12월 29일과 30일이 되면 각 집에서는 춘절 연을 엮어 올리기 시작합니다. 최근에는 누구나 춘절 연을 쓸 수 있도록 돕기 위해 춘절 연을 쓰는 데 도움이 되는 다양한 AI 춘절 연 쓰기 애플리케이션이 출시되었습니다. 시도해 보시겠습니까?

춘절이 곧 끝나가는데, 아직도 축제 분위기에 푹 빠져 계신가요?

매년 음력 12월 29일과 30일에는 각 집에서 붉은색 춘절 대련을 걸고, 춘절이 공식적으로 시작됩니다.

춘절 연시는 "연시", "문연시", "연시"라고도 불리며, 중국어에만 있는 독특한 예술 형태이며 오랜 역사를 가지고 있습니다. 2005년 중국 국무원은 연문학을 제1차 국가급 무형문화유산 목록에 등재했습니다.

연에서 가장 중요한 것은 '페어링'입니다. 연은 균형이 잘 잡혀 있어야 하며, 조화로운 음조를 가져야 합니다. 그러나 현대인의 연을 쓰는 기술은 고대 문인과 시인의 기술에 비해 훨씬 뒤떨어져 있습니다. 때로는 위와 아래 구절을 구분하지 못할 수도 있습니다. 그리고 똑똑한 AI는 스스로 연을 쓰는 법을 배웠습니다.

70만 연 데이터, AI에게 연 쓰기 훈련

기존의 공개된 연행 데이터 세트 중에서는 펑 중푸의 _梨味斋散叶_ 블로그에서 공개한 연행 데이터 세트가 가장 규모가 크고 널리 사용되고 있습니다.

데이터 세트 발췌:처음 두 개는 훈련 세트의 상위 및 하위 구절입니다.,마지막 두 그림은 테스트 세트의 위와 아래 구절입니다..이 데이터 세트에는 문자별로 구분된 70만 개 이상의 연이 포함되어 있습니다.

데이터 세트는 훈련 세트, 테스트 세트, 어휘로 구분됩니다.

위의 발췌문에서 보듯이, 훈련 세트는 입력과 출력의 두 부분으로 나뉘는데, 이는 쌍의 위쪽과 아래쪽 쌍으로, 순서대로 하나씩 대응하며, 테스트 세트도 동일합니다.

데이터 세트 세부정보는 다음과 같습니다.

커플릿 데이터 세트 

커플릿 데이터 세트

데이터 출처:풍중푸_배맛 야채

포함된 수량:70만 연 

데이터 형식:.txt 데이터 크기:59.7MB(압축 시 27.4MB)

주소:https://orion.hyper.ai/datasets/14547

이 데이터 세트는 연작 데이터 중에서 가장 인기 있는 데이터 세트가 되었으며, 많은 AI 엔지니어와 팀에서 연작 쓰기 모델을 위한 훈련 데이터 세트로 사용하고 있습니다. Huawei의 Yuefu 춘절 연희도 이 데이터 세트를 사용하여 훈련되었습니다. 위 주소를 통해 데이터 세트를 다운로드하거나 클릭하여 원본 텍스트를 읽을 수 있습니다. 다만, 이 데이터 세트에는 가로 배너가 없다는 점이 조금 아쉽습니다. 따라서 직접 아이디어를 내셔야 합니다.

AI: 내가 생각해낼 수 없는 구절이 하나도 없어

왕빈이라는 엔지니어가 커플릿 데이터 세트를 크롤링하여 사용하고, GTX 1080 Ti로 4일 동안 학습시킨 후 자동 커플릿 매칭 모델을 얻었습니다. 어떤 성능을 보입니까? 테스트해 봅시다.

ww 킹

테스트 주소: https://ai.binwang.me/couplet/

엔지니어는 또한 GitHub에 프로젝트를 오픈 소스로 공개했습니다.

https://github.com/wb14123/couplet-dataset

또 다른 엔지니어는 GPT2-중국어와 연행 데이터 세트를 기반으로 연행 분야에서 GPT-2 모델을 훈련했으며, 이를 통해 연행을 자동으로 생성할 수 있습니다.

서버 버전을 WeChat 공개 계정 AINLP 백엔드에 연결하고 대화 상자에서 직접 테스트할 수 있습니다.

"연대 쓰기"라는 키워드를 입력하면 연대가 자동으로 생성됩니다. 예를 들어, "write couplets Taurus"를 입력하면, 쌍구 모델은 자동으로 "Taurus"를 기준으로 쓰기를 계속하고 "Taurus"로 시작하는 3개의 쌍구를 제공합니다.

"연대 + 첫 연 세트"를 입력하면 연 세트 3개가 생성됩니다. 예:

현재로선 AI가 몇몇 고전 구절에 대해 비교적 깔끔한 병렬성과 풍부한 상상력을 발휘할 수 있는 것으로 보인다. 같은 첫 번째 줄에 대해서도 여러 개의 다른 두 번째 줄이 나올 수 있습니다. 그러나 연에서 자주 등장하지 않는 몇몇 단어의 경우 AI의 성과는 다소 임의적이고 지나친 편입니다. 물론 AI가 '인공지능'이라든지 그런 것에 대해 이야기하기는 사실 조금 어렵긴 합니다.

화웨이 팀이 개발한 AI 커플릿 역시 커플릿 데이터셋을 훈련 데이터로 사용합니다. 이 모델은 주어진 주제에 기반하여 연을 생성할 수 있습니다."새해 복 많이 받으세요", "안전하고 건강하게", "하룻밤 사이에 부자가 되세요"라는 주제를 입력한 결과는 다음과 같습니다.슬라이드하여 볼 수 있는 내용:

다양한 주제를 다룬 AI 생성 쌍대문

내년에는 춘절 연을 쓰고 가족을 위해 연을 쓰는 AI 모델을 직접 훈련시키고 싶으신가요?

데이터셋 다운로드 포털: https://orion.hyper.ai/datasets/14547