Date

il y a 2 ans

Taille

939.48 MB

Organisation

URL de publication

github.com

URL du document

arxiv.org

Balises

Traitement Du Langage Naturel

Le LCCC (corpus de conversations chinoises nettoyées à grande échelle) a été publié par l'Université Tsinghua et le Samsung China Research Institute en 2020. L'ensemble de données se compose principalement de deux parties : LCCC-base (6,8 millions de dialogues) et LCCC-large (12 millions de dialogues). L'équipe de recherche a conçu un processus rigoureux de filtrage des données pour garantir la qualité des données de conversation dans l'ensemble de données, qui est basé sur un ensemble de règles et un classificateur formé sur 110 000 paires de conversations annotées manuellement. Le bruit filtré par l’équipe de recherche comprend : des mots grossiers, des caractères spéciaux, des émoticônes, des phrases grammaticalement incorrectes et des conversations qui ne sont pas contextuellement pertinentes. L'ensemble de données nettoyé et les modèles pré-entraînés faciliteront la recherche sur la modélisation de conversations textuelles courtes.

LCCC.torrent

Seeding 2Téléchargement 0Terminé 325Total Downloads 578

LCCC/
- README.md
  1.38 KB
- README.txt
  2.76 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi

il y a 5 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 2 ans

Taille

939.48 MB

Organisation

URL de publication

github.com

URL du document

arxiv.org

Balises

Traitement Du Langage Naturel

LCCC.torrent

Seeding 2Téléchargement 0Terminé 325Total Downloads 578

LCCC/
- README.md
  1.38 KB
- README.txt
  2.76 KB

undefined

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

il y a 3 mois

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

il y a 2 mois

Ensemble De Données EEG THINGS-EEG

il y a 5 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi

il y a 5 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Grand Corpus Conversationnel Chinois Propre Du LCCC

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Grand Corpus Conversationnel Chinois Propre Du LCCC

undefined

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Grand Corpus Conversationnel Chinois Propre Du LCCC

undefined

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi

undefined

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Données Sur La Qualité De l'air (IQA) De La Pollution À Delhi