HyperAI超神経

MCTS 中国語簡体字データセット

日付

4ヶ月前

サイズ

71.7 MB

組織

北京語言大学
清華大学

公開URL

github.com

MCTSはMulti-Reference Chinese Text Simplification Datasetの略で、北京語言大学、東北大学、清華大学の研究チームによって2024年にリリースされた中国語テキスト簡略化データセットです。MCTS: マルチリファレンス中国語テキスト簡略化データセット」は、自然言語処理の分野におけるテキスト削減タスクに対する豊富なリソースとサポートを提供することを目的としています。

このデータセットには、Penn Chinese Treebank (CTB) の基準に基づいてニュース コーパスから選択された複雑な構造を持つ 723 文が含まれており、各文には複数の人工簡略化バージョンが備えられており、最大かつ最も参照されている中国語テキスト削減評価データです。セット。さらに、MCTS では、言い換え、文圧縮、構造変換という 3 種類の文書き換え方法も定義されており、この多様性により、さまざまなテキスト簡略化戦略がカバーされます。

MCTS データセットは、段階的読書や機械翻訳などの研究分野に適しているだけでなく、言語学習者が複雑なテキストをよりよく理解して処理するのにも役立ちます。

使用法に関しては、MCTS はトレーニング用の並列データを提供し、これを使用して中国語テキスト削減モデルをトレーニングおよび最適化できます。同時に、研究者は、SARI、BLEU、HSK レベルなどの自動評価指標を使用して、システムによって生成された簡略化されたテキストとデータセット内の複数参照の簡略化されたバージョンを比較することにより、システムのパフォーマンスを定量化することもできます。

MCTS-CN.torrent
シーディング 0ダウンロード中 1ダウンロード完了 48総ダウンロード数 88
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB