Date

il y a 2 ans

Taille

649.13 MB

Organisation

URL du document

arxiv.org

Balises

LLM

Traitement Du Langage Naturel

Langue

Entraînement Du Modèle

M2Lingual est un ensemble de données de réglage fin d'instructions (IFT) multilingue et multi-tours qui vise à améliorer les performances des grands modèles de langage (LLM) dans le suivi des instructions, en particulier sur diverses langues et tâches. L'ensemble de données a été créé en 2024 par une équipe de recherche de ServiceNow et de l'Université de l'Illinois à Chicago. Les principales caractéristiques de l'ensemble de données M2Lingual comprennent :

Couverture multilingue:M2Lingual couvre 70 langues différentes, fournissant davantage de données de formation pour les langues à faibles ressources.
Dialogue multi-tours:L'ensemble de données contient plusieurs séries d'instructions et de réponses, ce qui améliore la capacité du modèle à gérer des scénarios de dialogue complexes.
Orienté vers les tâches:M2Lingual comprend 17 tâches de traitement du langage naturel (NLP), telles que le résumé, la réponse aux questions et les paires générales de commandes-réponses.
À grande échelle:L'ensemble de données contient un total de 182 000 paires d'instructions de réglage fin, fournissant des échantillons de formation riches.
Ensemble de données synthétiques：M2Lingual est un ensemble de données entièrement synthétique généré à l'aide d'une taxonomie évolutive spécifique, garantissant la diversité et la complexité des données.
Améliorations des performances:LLM affiné à l'aide de M2Lingual montre des performances supérieures par rapport aux ensembles de données IFT multilingues existants sur plusieurs benchmarks d'évaluation. L'introduction de M2Lingual fournit une nouvelle solution au problème de l'alignement des instructions multilingues et multi-tours, ce qui contribue à améliorer la praticité et la précision des grands modèles linguistiques dans des environnements multilingues.

M2Lingual.torrent

Seeding 1Téléchargement 0Terminé 226Total Downloads 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

il y a 5 mois

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 6 mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 2 ans

Taille

649.13 MB

Organisation

URL du document

arxiv.org

Balises

LLM

Traitement Du Langage Naturel

Langue

Entraînement Du Modèle

Couverture multilingue:M2Lingual couvre 70 langues différentes, fournissant davantage de données de formation pour les langues à faibles ressources.
Dialogue multi-tours:L'ensemble de données contient plusieurs séries d'instructions et de réponses, ce qui améliore la capacité du modèle à gérer des scénarios de dialogue complexes.
Orienté vers les tâches:M2Lingual comprend 17 tâches de traitement du langage naturel (NLP), telles que le résumé, la réponse aux questions et les paires générales de commandes-réponses.
À grande échelle:L'ensemble de données contient un total de 182 000 paires d'instructions de réglage fin, fournissant des échantillons de formation riches.
Ensemble de données synthétiques：M2Lingual est un ensemble de données entièrement synthétique généré à l'aide d'une taxonomie évolutive spécifique, garantissant la diversité et la complexité des données.
Améliorations des performances:LLM affiné à l'aide de M2Lingual montre des performances supérieures par rapport aux ensembles de données IFT multilingues existants sur plusieurs benchmarks d'évaluation. L'introduction de M2Lingual fournit une nouvelle solution au problème de l'alignement des instructions multilingues et multi-tours, ce qui contribue à améliorer la praticité et la précision des grands modèles linguistiques dans des environnements multilingues.

M2Lingual.torrent

Seeding 1Téléchargement 0Terminé 226Total Downloads 304

M2Lingual/
- README.md
  2.11 KB
- README.txt
  4.22 KB

undefined

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

il y a 3 mois

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

il y a 3 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

il y a 5 mois

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 6 mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données De Réglage Fin d'instructions Multilingues Et multi-tours M2Lingual

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Réglage Fin d'instructions Multilingues Et multi-tours M2Lingual

undefined

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Réglage Fin d'instructions Multilingues Et multi-tours M2Lingual

undefined

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

undefined

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Tâches Génératives multi-domaines RubricHub_v1

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi