このデータセットを使用

Discordで議論

日付

1年前

サイズ

9.3 GB

タグ

ドキュメント理解

自然言語処理

検索拡張生成

MLDR (Multilingual Long-Document Retrieval) は、Wikipedia、Wudao、mC4 多言語コーパスに基づいて構築された多言語の長い文書検索データセットです。複数言語にわたる長文テキスト検索タスクの研究開発を支援することを目的としています。アラビア語 (ar)、ドイツ語 (de)、英語 (en)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、イタリア語 (it)、日本語 (ja)、韓国語 (ko)、ポルトガル語 (pt)、ロシア語 (ru)、タイ語 (th)、中国語 (zh) を含む、類型的に異なる 13 の言語をカバーしています。

特徴と利点:

幅広い多言語対応：13 の言語が含まれており、複数の言語ファミリー（インド・ヨーロッパ語族、シナ・チベット語族、アラビア語など）をカバーしています。
長いドキュメント機能: ドキュメントの平均長さは 4,737 語で、実際のシナリオでの長いテキスト処理のニーズに適しています。
標準化された構築: GPT-3.5 を通じて高品質のクエリを生成し、クエリとドキュメントコンテンツの関連性を高めます。

引用

@misc{bge-m3、 title={BGE M3-Embedding: 自己知識蒸留による多言語、多機能、多粒度のテキスト埋め込み}, 著者={Jianlv Chen、Shitao Xiao、Peitian Zhang、Kun Luo、Defu Lian、Zheng Liu}、年={2024}、 eprint={2402.03216}、 archivePrefix={arXiv}、 primaryClass={cs.CL} }

MLDR.torrent

シーディング 1ダウンロード中 0完了 158総ダウンロード数 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

このデータセットを使用

Discordで議論

日付

1年前

サイズ

9.3 GB

タグ

ドキュメント理解

自然言語処理

検索拡張生成

MLDR (Multilingual Long-Document Retrieval) は、Wikipedia、Wudao、mC4 多言語コーパスに基づいて構築された多言語の長い文書検索データセットです。複数言語にわたる長文テキスト検索タスクの研究開発を支援することを目的としています。アラビア語 (ar)、ドイツ語 (de)、英語 (en)、スペイン語 (es)、フランス語 (fr)、ヒンディー語 (hi)、イタリア語 (it)、日本語 (ja)、韓国語 (ko)、ポルトガル語 (pt)、ロシア語 (ru)、タイ語 (th)、中国語 (zh) を含む、類型的に異なる 13 の言語をカバーしています。

特徴と利点:

幅広い多言語対応：13 の言語が含まれており、複数の言語ファミリー（インド・ヨーロッパ語族、シナ・チベット語族、アラビア語など）をカバーしています。
長いドキュメント機能: ドキュメントの平均長さは 4,737 語で、実際のシナリオでの長いテキスト処理のニーズに適しています。
標準化された構築: GPT-3.5 を通じて高品質のクエリを生成し、クエリとドキュメントコンテンツの関連性を高めます。

引用

@misc{bge-m3、 title={BGE M3-Embedding: 自己知識蒸留による多言語、多機能、多粒度のテキスト埋め込み}, 著者={Jianlv Chen、Shitao Xiao、Peitian Zhang、Kun Luo、Defu Lian、Zheng Liu}、年={2024}、 eprint={2402.03216}、 archivePrefix={arXiv}、 primaryClass={cs.CL} }

MLDR.torrent

シーディング 1ダウンロード中 0完了 158総ダウンロード数 236

MLDR/
- README.md
  1.62 KB
- README.txt
  3.24 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MLDR多言語文書検索データセット | データセット | HyperAI超神経