MLDR-Datensatz Zur Mehrsprachigen Dokumentenabfrage
Datum
vor einem Monat
Größe
9.3 GB
Veröffentlichungs-URL
Tags
Kategorien
MLDR (Multilingual Long-Document Retrieval) ist ein mehrsprachiger Datensatz zum Abrufen langer Dokumente, der auf den mehrsprachigen Korpuss Wikipedia, Wudao und mC4 basiert. Ziel ist es, die Forschung und Entwicklung sprachübergreifender Aufgaben zur Langtextsuche zu unterstützen. Deckt 13 typologisch unterschiedliche Sprachen ab, darunter Arabisch (ar), Deutsch (de), Englisch (en), Spanisch (es), Französisch (fr), Hindi (hi), Italienisch (it), Japanisch (ja), Koreanisch (ko), Portugiesisch (pt), Russisch (ru), Thailändisch (th) und Chinesisch (zh).
Eigenschaften und Vorteile:
- Breite Abdeckung mehrerer Sprachen: Es umfasst 13 Sprachen und deckt mehrere Sprachfamilien ab (wie Indoeuropäisch, Sinotibetisch, Arabisch usw.).
- Funktion für lange Dokumente: Die durchschnittliche Länge eines Dokuments beträgt 4.737 Wörter, was für die Anforderungen der Verarbeitung langer Texte in realen Szenarien geeignet ist.
- Standardisierte Konstruktion: Generieren Sie qualitativ hochwertige Abfragen über GPT-3.5, um eine hohe Relevanz der Abfragen für den Dokumentinhalt sicherzustellen.
MLDR.torrent
Seeding 1Herunterladen 0Abgeschlossen 29Gesamtdownloads 26