HyperAIHyperAI

Command Palette

Search for a command to run...

MLDR-Datensatz Zur Mehrsprachigen Dokumentenabfrage

MLDR (Multilingual Long-Document Retrieval) ist ein mehrsprachiger Datensatz zum Abrufen langer Dokumente, der auf den mehrsprachigen Korpuss Wikipedia, Wudao und mC4 basiert. Ziel ist es, die Forschung und Entwicklung sprachübergreifender Aufgaben zur Langtextsuche zu unterstützen. Deckt 13 typologisch unterschiedliche Sprachen ab, darunter Arabisch (ar), Deutsch (de), Englisch (en), Spanisch (es), Französisch (fr), Hindi (hi), Italienisch (it), Japanisch (ja), Koreanisch (ko), Portugiesisch (pt), Russisch (ru), Thailändisch (th) und Chinesisch (zh).

Eigenschaften und Vorteile:

  • Breite Abdeckung mehrerer Sprachen: Es umfasst 13 Sprachen und deckt mehrere Sprachfamilien ab (wie Indoeuropäisch, Sinotibetisch, Arabisch usw.).
  • Funktion für lange Dokumente: Die durchschnittliche Länge eines Dokuments beträgt 4.737 Wörter, was für die Anforderungen der Verarbeitung langer Texte in realen Szenarien geeignet ist.
  • Standardisierte Konstruktion: Generieren Sie qualitativ hochwertige Abfragen über GPT-3.5, um eine hohe Relevanz der Abfragen für den Dokumentinhalt sicherzustellen.
MLDR.torrent
Seeding 1Downloading 0Completed 97Total Downloads 164
  • MLDR/
    • README.md
      1.62 KB
    • README.txt
      3.24 KB
      • data/
        • MLDR.zip
          9.3 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp