11日前

RedPenNet による文法的誤り訂正：トークンへの出力、スパンへの注意機構

Bohdan Didenko, Andrii Sameliuk

要約

文書編集タスク（文の統合、文の分割、言い換え、テキスト簡略化、文法的誤り訂正（GEC）など）は、入力と出力のシーケンスが非常に類似しているという共通の特徴を持つ。この研究分野は、（i）ニューラル機械翻訳（NMT）などに広く用いられる完全自己回帰的シーケンス・ツー・シーケンスアプローチと、（ii）品詞タグ付け、固有表現抽出（NER）などに用いられるシーケンスタグ付け技術という、2つの確立された分野の交差点に位置している。バランスの取れたアーキテクチャを実現するため、研究者たちは多数の独創的かつ非伝統的な解決策を提案しており、これらについては関連研究（Related Works）の節で議論する。本研究で提示するアプローチは「RedPenNet」と呼ばれ、特定のシーケンス・ツー・エディットモデルに見られるアーキテクチャ的・パラメータ的冗長性を低減することを目的としており、同時にその半自己回帰的特性を維持する。本モデルは、BEA-2019（テスト）で$F_{0.5}$スコア77.60を達成し、システム結合を除けば、現時点で最も優れた性能と見なせる。また、UAGEC+Fluency（テスト）ベンチマークでは67.71のスコアを記録した。本研究は、UNLP 2023ワークショップの文脈で行われており、ウクライナ語向け文法的誤り訂正（GEC）の共同タスク（Shared Task）として論文発表された。本研究の目的は、RedPenNetアプローチをウクライナ語におけるGEC問題に適用することにある。