Command Palette
Search for a command to run...
MLDR-Datensatz Zur Mehrsprachigen Dokumentenabfrage
Date
Size
MLDR (Multilingual Long-Document Retrieval) ist ein mehrsprachiger Datensatz zum Abrufen langer Dokumente, der auf den mehrsprachigen Korpuss Wikipedia, Wudao und mC4 basiert. Ziel ist es, die Forschung und Entwicklung sprachübergreifender Aufgaben zur Langtextsuche zu unterstützen. Deckt 13 typologisch unterschiedliche Sprachen ab, darunter Arabisch (ar), Deutsch (de), Englisch (en), Spanisch (es), Französisch (fr), Hindi (hi), Italienisch (it), Japanisch (ja), Koreanisch (ko), Portugiesisch (pt), Russisch (ru), Thailändisch (th) und Chinesisch (zh).
Eigenschaften und Vorteile:
- Breite Abdeckung mehrerer Sprachen: Es umfasst 13 Sprachen und deckt mehrere Sprachfamilien ab (wie Indoeuropäisch, Sinotibetisch, Arabisch usw.).
- Funktion für lange Dokumente: Die durchschnittliche Länge eines Dokuments beträgt 4.737 Wörter, was für die Anforderungen der Verarbeitung langer Texte in realen Szenarien geeignet ist.
- Standardisierte Konstruktion: Generieren Sie qualitativ hochwertige Abfragen über GPT-3.5, um eine hohe Relevanz der Abfragen für den Dokumentinhalt sicherzustellen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.