8ヶ月前

データセット

ベンチマーク

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Lvxiaowei Xu Jianwang Wu Jiawei Peng Jiayu Fu Ming Cai

概要

文法誤り訂正（GEC）は最近、自動訂正および校正システムに広く応用されています。しかし、ネイティブスピーカーによる高品質データの種類と量が限られているため、中国語のGECは未だ発展途上です。本論文では、文法誤りを検出、特定、訂正するための微細化コーパスFCGECを提案します。FCGECは、公立学校の中国語試験における選択問題から主に収集された41,340文で構成され、複数の参照を持つ人間によって注釈付けられたコーパスです。さらに、低リソース環境での文法誤り訂正のためにSwitch-Tagger-Generator（STG）ベースラインモデルを提案します。他のGECベンチマークモデルと比較して、実験結果はSTGが当社のFCGECにおいて優れた性能を示していることを示しています。ただし、ベンチマークモデルと人間との間に大きな差異が存在しており、これにより将来のモデルがそのギャップを埋めることが期待されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

データセット

ベンチマーク

ドキュメント理解

AIインフラストラクチャ

自然言語処理

Lvxiaowei Xu Jianwang Wu Jiawei Peng Jiayu Fu Ming Cai

概要

文法誤り訂正（GEC）は最近、自動訂正および校正システムに広く応用されています。しかし、ネイティブスピーカーによる高品質データの種類と量が限られているため、中国語のGECは未だ発展途上です。本論文では、文法誤りを検出、特定、訂正するための微細化コーパスFCGECを提案します。FCGECは、公立学校の中国語試験における選択問題から主に収集された41,340文で構成され、複数の参照を持つ人間によって注釈付けられたコーパスです。さらに、低リソース環境での文法誤り訂正のためにSwitch-Tagger-Generator（STG）ベースラインモデルを提案します。他のGECベンチマークモデルと比較して、実験結果はSTGが当社のFCGECにおいて優れた性能を示していることを示しています。ただし、ベンチマークモデルと人間との間に大きな差異が存在しており、これにより将来のモデルがそのギャップを埋めることが期待されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

FCGEC: 中国語文法誤り訂正用の詳細コーパス | 記事 | HyperAI超神経