HyperAI

Pour Ce Festival De Printemps, Nous Vous Recommandons Trois Outils D'ia Pour Vous Aider À Écrire Des Distiques Du Festival De Printemps.

il y a 6 ans
Titres
Liste recommandée
Information
Dao Wei
特色图像

par Super Neuro

—-

J'attends avec impatience, j'attends avec impatience, la Fête du Printemps arrive. Y a-t-il quelque chose qui mérite d’être attendu avec impatience lors du Festival du Printemps de cette année ? Il vaut mieux bien se comporter à la maison avant que vos parents ne vous poussent à vous marier ou à avoir des enfants.

Par exemple, si vous souhaitez écrire des distiques du Festival du Printemps pour votre maison, ou en personnaliser quelques-uns pour les offrir à vos proches et amis, j'ai ici trois robots qui peuvent vous aider à écrire des distiques. Apprenons-en plus à ce sujet.

Une IA capable d'écrire des distiques

Nous sommes en 2019 et j'ai soudainement eu l'idée de trouver une IA pour écrire un distique. Grâce à l’omnipotent Internet, j’ai en fait trouvé trois outils d’IA.

Couplet AI de Microsoft est un produit Web de Microsoft Research Asia. Cela remonte à l'idée des distiques automatiques en 2004.

Après de nombreux changements au fil des ans, la dernière version a été lancée en 2015, qui peut rapidement terminer la tâche de correspondance des distiques.

Et plusieurs options seront proposées. Si vous n'êtes toujours pas satisfait, plusieurs choix vous seront proposés pour chaque mot correspondant. Le plus convivial est que vous pouvez intégrer vos mots préférés selon vos besoins.

Il s'agit d'un système de couplet Web simple, et on dit qu'il s'agit d'un « projet pratique » d'un ingénieur caché.

Il est sorti en octobre 2017 et a été apprécié de manière inattendue par le grand public après sa sortie, car il était considéré comme une source de bonheur pour toute la journée. Certains internautes ont même spécialement enregistré une vidéo de test et l'ont téléchargée sur bilibili.

La façon de l’utiliser est également très simple. Donnez-vous la première ligne d'un distique, et il vous répondra immédiatement avec la deuxième ligne. Il n'y a pas de place pour la négociation, et c'est propre et net.

L'auteur a parcouru des millions d'ensembles de données de couplets sur Internet et a utilisé le modèle seq2seq pour suspendre la chaîne. En plus des outils actuels, il a également ouvert son ensemble de données et son modèle sur Github une fois terminé.

C'est un nouveau venu dans le monde des couplets d'IA. Il est né il y a une semaine et est un modèle d'IA connecté à un compte public. L'auteur a créé cela après avoir vu un corpus de distiques et avait hâte de montrer ses compétences.

La méthode consiste à répondre « Entrez le contenu du premier couplet » en arrière-plan du compte officiel, et vous obtiendrez le deuxième couplet. Bien sûr, il y a des moments où il ne parvient pas à trouver le deuxième couplet.

Si vous oubliez de saisir la première ligne, l'arrière-plan est un robot de discussion.

Est-ce un mulet ou un cheval ? Tirez-le pour faire un distique

Afin de comparer les effets de ces trois outils d'IA, nous avons effectué plusieurs séries de tests, et l'ordre de sortie était les résultats des couplets Microsoft, des couplets Wang Bin et des couplets AINLP.

  • Round 1 : Qui est Fei-Fei Li ?

Dans ce tour, à l'exception du robot WeChat, qui était un peu difficile à lire, les deux autres concurrents étaient assez normaux.

  • 2e round : Wang Sicong mange des hot-dogs

Quant au comportement du directeur, le robot AINIP n'a pas pu donner de réponse et a directement commencé à agir de manière mignonne. Hahahaha, il semble que l'IA ne sache vraiment pas à quel point Sicong est riche.

  • Troisième tour : L'intelligence artificielle écrit des distiques pour la Fête du Printemps

Ce tour-ci, chacun des trois a ses propres caractéristiques. Le « nerf trijumeau » donné par Microsoft va me faire mourir de rire, le « savoir-faire miraculeux » d'AINLP est également un peu déroutant, et la deuxième place « liberté » semble un peu fade.

  • Round 4 : Le premier couplet : Le soleil couchant et l'oie sauvage solitaire volent ensemble

Pour cette phrase classique, la réponse de Wang Bin au distique est trop coquine. (En fait, Microsoft fournit également des réponses standard dans les options)

  • Tour 5 : Le premier couplet : Le son des pétards dit adieu à la vieille année

Revenons au sujet et écrivons des distiques pour la Fête du Printemps.

Mais à en juger par les résultats du dernier tour, il peut être utilisé pour être accroché devant la porte.

Comment entraîner l’IA à écrire des distiques pour la Fête du Printemps ?

Après avoir examiné ces gadgets, nous pouvons essentiellement voir que dans la culture traditionnelle chinoise, non seulement les poèmes anciens, les distiques, mais aussi les unités linguistiques telles que les distiques antithétiques ont des régularités extrêmement fortes, qui sont très adaptées à l'apprentissage par le biais de machines et facilement automatisées.

  1. Utilisation du modèle Encodeur-Décodeur

Le cadre Encoder-Decoder peut être considéré comme un modèle de recherche dans le domaine du traitement de texte, avec des scénarios d'application extrêmement larges.

Cadre d'encodeur-décodeur abstrait

Le cadre Encodeur-Décodeur peut être compris intuitivement comme suit : il peut être considéré comme un modèle de traitement général adapté au traitement de la génération d'une autre phrase (ou paragraphe) à partir d'une phrase (ou paragraphe). Pour les paires de phrases, l'objectif est de générer la phrase cible Y via le cadre Encodeur-Décodeur étant donné la phrase d'entrée X. X et Y peuvent être la même langue ou deux langues différentes. X et Y sont composés de leurs propres séquences de mots :

Comme son nom l'indique, Encoder encode la phrase d'entrée X et convertit la phrase d'entrée en une représentation sémantique intermédiaire C via une transformation non linéaire :

Pour le décodeur, sa tâche est de générer le mot yi à générer à l'instant i à partir de la représentation sémantique intermédiaire C de la phrase X et des informations historiques précédemment générées y1, y2….yi-1

Chaque yi est généré de cette manière à son tour, il semble donc que l'ensemble du système génère la phrase cible Y en fonction de la phrase d'entrée X.

Ce scénario est un problème d’application typique du framework Encoder-Decoder. Il vous suffit de configurer le modèle spécifique du framework Encoder-Decoder, par exemple, Encoder et Decoder utilisent tous deux le modèle RNN.

L'encodeur-décodeur génère le lien inférieur

Il vous suffit de trouver une grande quantité de données de couplet pour entraîner ce modèle, puis vous pouvez utiliser ce modèle, saisir le premier couplet et la machine générera automatiquement le deuxième couplet.

Le framework Encoder-Decoder plus Attention devrait améliorer considérablement la qualité de la deuxième ligne. La raison est que cela nécessite un parallélisme strict. Par conséquent, lors de la génération d'un certain mot dans la deuxième ligne, il est sans aucun doute très important de trouver le mot correspondant dans la première ligne comme information de référence clé pour la génération.

Par exemple, lorsque le modèle Attention voit le caractère « 三 » dans le premier distique, il se concentrera sur le caractère « 一 » dans le deuxième distique lors de la génération du caractère correspondant. Il faut savoir que le caractère correspondant doit être un caractère chinois numérique.

Modèle d'attention

En utilisant Encoder-Decoder pour ce faire, la relation antithétique entre les caractères chinois devrait pouvoir être bien apprise, mais comment garantir que la sémantique du deuxième couplet généré est cohérente n'est pas nécessairement une bonne solution. Qu'est-ce que cela signifie? Cela signifie que lorsque la machine voit la première ligne du couplet « vent et nuage, épée de trois pieds », il est très probable qu'elle obtienne la ligne suivante : « pluie et vent, couteau de dix mille pieds ». Individuellement, chaque mot semble bien correspondre, mais dans l’ensemble, la sémantique ne semble pas si harmonieuse. (Remarque : en fait, si vous inventez vraiment cette deuxième ligne, elle est en réalité assez héroïque, n'est-ce pas ? Cela est en fait lié au fait que les gens utiliseront leur imagination pour combiner des mots consécutifs dans un contexte raisonnable.)

Essentiellement, Encoder-Decoder est capable d'apprendre le modèle de langage pendant la phase de décodage, et il est évident que l'introduction du modèle de langage est très utile pour générer la lisibilité et la cohérence du langage de la deuxième ligne.

Cependant, si les données de formation ne sont pas si volumineuses, je pense qu'en utilisant un grand nombre de poèmes anciens pour former un modèle de langage poétique, dans l'étape de génération du décodeur, de nombreux caractères chinois candidats possibles sont générés à chaque nœud temporel t, puis en utilisant ce modèle de langage + Beam Search, les distiques générés devraient pouvoir assurer une certaine cohérence sémantique.

Lors de la génération de distiques, il y a en fait le problème de la prosodie des caractères chinois dans les distiques supérieurs et inférieurs, qui peut également être examinée et filtrée comme une étape de post-traitement similaire au modèle de langue.

  • 2. Utilisez RNN pour compléter

Utilisez RNN pour créer un modèle de langage de poésie ancienne, puis générez automatiquement le premier distique via ce modèle de langage RNN.

La figure génère des distiques de manière entièrement automatique

De plus, il reste encore un petit problème pour les distiques, qui est de savoir comment générer la bannière horizontale du distique. Parce que généralement les distiques doivent être accompagnés d'une bannière horizontale pour résumer les thèmes principaux des distiques supérieurs et inférieurs.

L'idée est en fait similaire. Les couplets supérieur et inférieur peuvent être considérés comme un tout comme l'entrée de l'encodeur, et le décodeur peut être utilisé pour générer la bannière horizontale. Ceci est similaire à l’idée d’utiliser Encoder-Decoder+Attention pour le résumé.

Références :

  • 1.https://blog.csdn.net/malefactor/article/details/51124732
  • « Utilisation du modèle Encodeur-Décodeur pour générer automatiquement des couplets » par Zhang Junlin
  • 2.https://mp.weixin.qq.com/s/ettmrvz0SMpdBd5HU1xhnw
  • « Le premier concours de couplets d'intelligence artificielle » par le compte officiel WeChat : Xiang Zi Ran
  • 3.https://duilian.msra.cn/app/couplet.aspx
  • Outil Microsoft Couplet
  • 4.https://ai.binwang.me/couplet/
  • Système de correspondance automatique de couplets Wang Bin
  • 5. Outil de couplet de compte public WeChat : AINLP