Date

il y a un an

Taille

9.3 GB

Balises

MLDR (Multilingual Long-Document Retrieval) est un ensemble de données de recherche de documents longs multilingues construit sur la base de Wikipédia, Wudao et du corpus multilingue mC4. Il vise à soutenir la recherche et le développement de tâches de recherche de textes longs inter-langues. Couvre 13 langues typologiquement distinctes, dont l'arabe (ar), l'allemand (de), l'anglais (en), l'espagnol (es), le français (fr), l'hindi (hi), l'italien (it), le japonais (ja), le coréen (ko), le portugais (pt), le russe (ru), le thaï (th) et le chinois (zh).

Caractéristiques et avantages :

Large couverture multilingue : Il comprend 13 langues, couvrant plusieurs familles de langues (telles que l'indo-européen, le sino-tibétain, l'arabe, etc.).
Fonctionnalité de document long : la longueur moyenne d'un document est de 4 737 mots, ce qui convient aux besoins de traitement de texte long dans des scénarios réels.
Construction standardisée : générez des requêtes de haute qualité via GPT-3.5 pour garantir une forte pertinence des requêtes par rapport au contenu du document.

Citation

@misc{bge-m3, titre={BGE M3-Embedding : Intégrations textuelles multilingues, multifonctionnelles et multigranulaires par distillation de la connaissance de soi}, author={Jianlv Chen et Shitao Xiao et Peitian Zhang et Kun Luo et Defu Lian et Zheng Liu}, année={2024}, eprint={2402.03216}, préfixe d'archive={arXiv}, primaryClass={cs.CL} }

MLDR.torrent

Partage 1Téléchargement 0Terminé 158Total des téléchargements 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 4 heures

Ensemble De Données d'images De Documents Médicaux Bruitées

il y a un jour

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

il y a 18 jours

Ensemble De Données Parallèles De Traduction Multilingue SMOL

il y a 19 jours

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

il y a un mois

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a un mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a un mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

il y a 2 mois

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

9.3 GB

Balises

Compréhension De Document

Traitement Du Langage Naturel

Langue

Génération Augmentée Par La Recherche

Caractéristiques et avantages :

Large couverture multilingue : Il comprend 13 langues, couvrant plusieurs familles de langues (telles que l'indo-européen, le sino-tibétain, l'arabe, etc.).
Fonctionnalité de document long : la longueur moyenne d'un document est de 4 737 mots, ce qui convient aux besoins de traitement de texte long dans des scénarios réels.
Construction standardisée : générez des requêtes de haute qualité via GPT-3.5 pour garantir une forte pertinence des requêtes par rapport au contenu du document.

Citation

MLDR.torrent

Partage 1Téléchargement 0Terminé 158Total des téléchargements 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 4 heures

Ensemble De Données d'images De Documents Médicaux Bruitées

il y a un jour

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

il y a 18 jours

Ensemble De Données Parallèles De Traduction Multilingue SMOL

il y a 19 jours

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

il y a un mois

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a un mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a un mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

il y a 2 mois

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données De Recherche De Documents Multilingues MLDR

Caractéristiques et avantages :

Citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Recherche De Documents Multilingues MLDR

Caractéristiques et avantages :

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'images De Documents Médicaux Bruitées

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Recherche De Documents Multilingues MLDR

Caractéristiques et avantages :

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'images De Documents Médicaux Bruitées

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'images De Documents Médicaux Bruitées

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'images De Documents Médicaux Bruitées

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench