HyperAIHyperAI

Command Palette

Search for a command to run...

M2Lingual 多言語マルチラウンド命令微調整データセット

日付

2年前

サイズ

649.13 MB

データセット構成

ServiceNow リサーチ
イリノイ大学シカゴ校

Paper URL

arxiv.org

M2Lingual は、多言語、マルチラウンドの命令微調整 (IFT) データ セットであり、特に多様な言語およびタスクに従う命令において、大規模言語モデル (大規模言語モデル、LLM) のパフォーマンスを向上させるように設計されています。このデータセットは、ServiceNow とイリノイ大学シカゴ校の研究チームによって 2024 年に発表されました。

M2Lingual データセットの主な特徴は次のとおりです。

  1. 多言語対応: M2Lingual は 70 の異なる言語をカバーし、リソースの少ない言語により多くのトレーニング データを提供します。
  2. 複数回の対話: データセットには複数ラウンドの指示と応答が含まれており、これにより複雑な対話シナリオを処理するモデルの能力が強化されます。
  3. タスク指向: M2Lingual には、要約、質問応答などの 17 の自然言語処理 (NLP) タスクと、一般的なコマンドと応答のペアが含まれています。
  4. 大規模な: データセットには合計 182,000 の命令微調整ペアが含まれており、豊富なトレーニング サンプルを提供します。
  5. 合成データセット: M2Lingual は、データの多様性と複雑性を確保するために、特定の進化分類法 (Evol 分類法) を使用して生成された完全に合成されたデータセットです。
  6. パフォーマンスの向上: M2Lingual を使用して微調整された LLM は、複数の評価ベンチマークで既存の多言語 IFT データセットよりも優れたパフォーマンスを示します。

M2Lingual の提案は、多言語および複数ラウンドの命令の調整の問題に対する新しい解決策を提供し、多言語環境における大規模な言語モデルの実用性と精度の向上に役立ちます。

M2Lingual.torrent
シーディング 1ダウンロード中 0完了 214総ダウンロード数 293
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています