HyperAIHyperAI

Command Palette

Search for a command to run...

ViGGO : Un corpus de jeux vidéo pour la génération de texte à partir de données dans le cadre de conversations à domaine ouvert

Juraj Juraska Kevin K. Bowden Marilyn Walker

Résumé

L’adoption du deep learning dans la génération de langage naturel (NLG) a conduit à la mise à disposition de corpus parallèles, tant petits que relativement volumineux, destinés à l’entraînement des modèles neuronaux. Les jeux de données existants pour la transformation données-texte sont toutefois principalement orientés vers des systèmes de dialogue orientés vers une tâche, ce qui les rend souvent limités en diversité et en polyvalence. Ces données sont généralement collectées par le biais de plateformes de crowdsourcing, laissant une grande partie du bruit inhérent aux données non traitée. Par ailleurs, les modèles actuels de NLG neuronaux ne tirent pas pleinement parti des grandes quantités de données d’entraînement, et en raison de leurs fortes capacités d’induction, produisent souvent des phrases aux allures de modèles prédéfinis. Nous proposons donc un nouveau corpus comprenant 7 000 échantillons, qui présente les caractéristiques suivantes : (1) il est propre malgré son origine en crowdsourcing ; (2) il inclut des énoncés couvrant 9 types d’actes de dialogue généraux et conversationnels, ce qui le rend plus adapté aux systèmes de dialogue ouverts ; (3) il explore un domaine nouveau pour les systèmes de dialogue — celui des jeux vidéo — qui, malgré son fort potentiel pour favoriser des conversations riches, n’avait jusqu’ici pas été largement exploité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp