@inproceedings{chong-etal-2024-mcts-multi, title = "{MCTS}: A Multi-Reference {C}hinese Text Simplification Dataset", author = "Chong Ruining and Lu Luming and Yang Liner and Nie Jinran and Liu Zhenghao and Wang Shuo and Zhou Shuhan and Li Yaoxin and Yang Erhong", booktitle = {LREC-COLING}, month = {May}, year = {2024}, } @misc{kong-acl-2022-simpdefiner, title={Multitasking Framework for Unsupversied Simple Definition Generation}, author={Cunliang Kong and Yun Chen and Hengyuan Zhang and Liner Yang and Erhong Yang}, booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics}, year={2022} }

日付

2年前

サイズ

71.7 MB

データセット構成

公開URL

github.com

論文URL

aclanthology.org

タグ

自然言語処理

MCTSはMulti-Reference Chinese Text Simplification Datasetの略で、北京語言大学、東北大学、清華大学の研究チームによって2024年にリリースされた中国語テキスト簡略化データセットです。MCTS: マルチリファレンス中国語テキスト簡略化データセット」は、自然言語処理の分野におけるテキスト削減タスクに対する豊富なリソースとサポートを提供することを目的としています。このデータセットには、Penn Chinese Treebank (CTB) の基準に基づいてニュースコーパスから選択された複雑な構造を持つ 723 文が含まれており、各文には複数の人工簡略化バージョンが備えられており、最大かつ最も参照されている中国語テキスト削減評価データです。セット。さらに、MCTS では、言い換え、文圧縮、構造変換という 3 種類の文書き換え方法も定義されており、この多様性により、さまざまなテキスト簡略化戦略がカバーされます。 MCTS データセットは、段階的読書や機械翻訳などの研究分野に適しているだけでなく、言語学習者が複雑なテキストをよりよく理解して処理するのにも役立ちます。使用法に関しては、MCTS はトレーニング用の並列データを提供し、これを使用して中国語テキスト削減モデルをトレーニングおよび最適化できます。同時に、研究者は、SARI、BLEU、HSK レベルなどの自動評価指標を使用して、システムによって生成された簡略化されたテキストとデータセット内の複数参照の簡略化されたバージョンを比較することにより、システムのパフォーマンスを定量化することもできます。

引用

@inproceedings{chong-etal-2024-mcts-multi,
title = "{MCTS}: A Multi-Reference {C}hinese Text Simplification Dataset",
author = "Chong Ruining and Lu Luming and Yang Liner and Nie Jinran and Liu Zhenghao and Wang Shuo and Zhou Shuhan and Li Yaoxin and Yang Erhong",
booktitle = {LREC-COLING},
month = {May},
year = {2024},
}
@misc{kong-acl-2022-simpdefiner,
title={Multitasking Framework for Unsupversied Simple Definition Generation},
author={Cunliang Kong and Yun Chen and Hengyuan Zhang and Liner Yang and Erhong Yang},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics},
year={2022}
}

MCTS-CN.torrent

シーディング 0ダウンロード中 1完了 183総ダウンロード数 326

MCTS-CN/
- README.md
  2.01 KB
- README.txt
  4.01 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

71.7 MB

データセット構成

公開URL

github.com

論文URL

aclanthology.org

タグ

自然言語処理

引用

@inproceedings{chong-etal-2024-mcts-multi,
title = "{MCTS}: A Multi-Reference {C}hinese Text Simplification Dataset",
author = "Chong Ruining and Lu Luming and Yang Liner and Nie Jinran and Liu Zhenghao and Wang Shuo and Zhou Shuhan and Li Yaoxin and Yang Erhong",
booktitle = {LREC-COLING},
month = {May},
year = {2024},
}
@misc{kong-acl-2022-simpdefiner,
title={Multitasking Framework for Unsupversied Simple Definition Generation},
author={Cunliang Kong and Yun Chen and Hengyuan Zhang and Liner Yang and Erhong Yang},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics},
year={2022}
}

MCTS-CN.torrent

シーディング 0ダウンロード中 1完了 183総ダウンロード数 326

MCTS-CN/
- README.md
  2.01 KB
- README.txt
  4.01 KB

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MCTS 中国語簡体字データセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

MCTS 中国語簡体字データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

MCTS 中国語簡体字データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット