Date

a year ago

Size

9.3 GB

Features and advantages:

Wide multi-language coverage: It includes 13 languages, covering multiple language families (such as Indo-European, Sino-Tibetan, Arabic, etc.).
Long document feature: The average length of a document is 4,737 words, which is suitable for long text processing needs in real scenarios.
Standardized construction: Generate high-quality queries through GPT-3.5 to ensure strong relevance of queries to document content.

Citation

@misc{bge-m3, title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu}, year={2024}, eprint={2402.03216}, archivePrefix={arXiv}, primaryClass={cs.CL} }

MLDR.torrent

Seeding 1Downloading 0Completed 158Total Downloads 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

This dataset is contributed by community users and is intended for educational and informational purposes only. If any content involves copyright infringement, please contact us at [email protected] for prompt review and removal.

Related Datasets

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

HyperAI

Use this Dataset

Discuss on Discord

Date

a year ago

Size

9.3 GB

Features and advantages:

Wide multi-language coverage: It includes 13 languages, covering multiple language families (such as Indo-European, Sino-Tibetan, Arabic, etc.).
Long document feature: The average length of a document is 4,737 words, which is suitable for long text processing needs in real scenarios.
Standardized construction: Generate high-quality queries through GPT-3.5 to ensure strong relevance of queries to document content.

Citation

MLDR.torrent

Seeding 1Downloading 0Completed 158Total Downloads 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

3 hours ago

Noisy Medical Document Image Dataset

a day ago

EAVSD E-commerce Advertising Video Storyboard Dataset

18 days ago

SMOL Multilingual Translation Parallel Dataset

19 days ago

LongBlocks Long Context Multilingual Question Answering Dataset

a month ago

MathNet Multimodal Mathematical Benchmark Inference Dataset

a month ago

Breast Cancer: Multi-Modal Fusion Dataset

a month ago

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

a day ago

ParseBench Document Parsing Capability Evaluation Dataset

2 months ago

MDPBench Multilingual Document Parsing Benchmark Dataset

a day ago

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

Command Palette

MLDR Multilingual Document Retrieval Dataset

Features and advantages:

Citation

Build AI with AI

HyperAI Newsletters

Command Palette

MLDR Multilingual Document Retrieval Dataset

Features and advantages:

Citation

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

Noisy Medical Document Image Dataset

EAVSD E-commerce Advertising Video Storyboard Dataset

SMOL Multilingual Translation Parallel Dataset

LongBlocks Long Context Multilingual Question Answering Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Breast Cancer: Multi-Modal Fusion Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

ParseBench Document Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

MLDR Multilingual Document Retrieval Dataset

Features and advantages:

Citation

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

Noisy Medical Document Image Dataset

EAVSD E-commerce Advertising Video Storyboard Dataset

SMOL Multilingual Translation Parallel Dataset

LongBlocks Long Context Multilingual Question Answering Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Breast Cancer: Multi-Modal Fusion Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

ParseBench Document Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

Build AI with AI

HyperAI Newsletters

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

Noisy Medical Document Image Dataset

EAVSD E-commerce Advertising Video Storyboard Dataset

SMOL Multilingual Translation Parallel Dataset

LongBlocks Long Context Multilingual Question Answering Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Breast Cancer: Multi-Modal Fusion Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

ParseBench Document Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

Related Datasets

MAKIEVAL Multilingual Cultural Knowledge Assessment Dataset

Noisy Medical Document Image Dataset

EAVSD E-commerce Advertising Video Storyboard Dataset

SMOL Multilingual Translation Parallel Dataset

LongBlocks Long Context Multilingual Question Answering Dataset

MathNet Multimodal Mathematical Benchmark Inference Dataset

Breast Cancer: Multi-Modal Fusion Dataset

RSRCC Remote Sensing Area Change Understanding Benchmark Dataset

ParseBench Document Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset