HyperAIHyperAI

Command Palette

Search for a command to run...

MCTS 中国語簡体字データセット

日付

2年前

サイズ

71.7 MB

データセット構成

Tsinghua University(清华大学)
北京语言大学

公開URL

github.com

MCTSはMulti-Reference Chinese Text Simplification Datasetの略で、北京語言大学、東北大学、清華大学の研究チームによって2024年にリリースされた中国語テキスト簡略化データセットです。MCTS: マルチリファレンス中国語テキスト簡略化データセット」は、自然言語処理の分野におけるテキスト削減タスクに対する豊富なリソースとサポートを提供することを目的としています。 このデータセットには、Penn Chinese Treebank (CTB) の基準に基づいてニュース コーパスから選択された複雑な構造を持つ 723 文が含まれており、各文には複数の人工簡略化バージョンが備えられており、最大かつ最も参照されている中国語テキスト削減評価データです。セット。さらに、MCTS では、言い換え、文圧縮、構造変換という 3 種類の文書き換え方法も定義されており、この多様性により、さまざまなテキスト簡略化戦略がカバーされます。 MCTS データセットは、段階的読書や機械翻訳などの研究分野に適しているだけでなく、言語学習者が複雑なテキストをよりよく理解して処理するのにも役立ちます。 使用法に関しては、MCTS はトレーニング用の並列データを提供し、これを使用して中国語テキスト削減モデルをトレーニングおよび最適化できます。同時に、研究者は、SARI、BLEU、HSK レベルなどの自動評価指標を使用して、システムによって生成された簡略化されたテキストとデータセット内の複数参照の簡略化されたバージョンを比較することにより、システムのパフォーマンスを定量化することもできます。

引用

@inproceedings{chong-etal-2024-mcts-multi,
title = "{MCTS}: A Multi-Reference {C}hinese Text Simplification Dataset",
author = "Chong Ruining and Lu Luming and Yang Liner and Nie Jinran and Liu Zhenghao and Wang Shuo and Zhou Shuhan and Li Yaoxin and Yang Erhong",
booktitle = {LREC-COLING},
month = {May},
year = {2024},
}
@misc{kong-acl-2022-simpdefiner,
title={Multitasking Framework for Unsupversied Simple Definition Generation},
author={Cunliang Kong and Yun Chen and Hengyuan Zhang and Liner Yang and Erhong Yang},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics},
year={2022}
}
MCTS-CN.torrent
シーディング 0ダウンロード中 1完了 183総ダウンロード数 326
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています