11日前

RedPenNet による文法的誤り訂正:トークンへの出力、スパンへの注意機構

Bohdan Didenko, Andrii Sameliuk
RedPenNet による文法的誤り訂正:トークンへの出力、スパンへの注意機構
要約

文書編集タスク(文の統合、文の分割、言い換え、テキスト簡略化、文法的誤り訂正(GEC)など)は、入力と出力のシーケンスが非常に類似しているという共通の特徴を持つ。この研究分野は、(i)ニューラル機械翻訳(NMT)などに広く用いられる完全自己回帰的シーケンス・ツー・シーケンスアプローチと、(ii)品詞タグ付け、固有表現抽出(NER)などに用いられるシーケンスタグ付け技術という、2つの確立された分野の交差点に位置している。バランスの取れたアーキテクチャを実現するため、研究者たちは多数の独創的かつ非伝統的な解決策を提案しており、これらについては関連研究(Related Works)の節で議論する。本研究で提示するアプローチは「RedPenNet」と呼ばれ、特定のシーケンス・ツー・エディットモデルに見られるアーキテクチャ的・パラメータ的冗長性を低減することを目的としており、同時にその半自己回帰的特性を維持する。本モデルは、BEA-2019(テスト)で$F_{0.5}$スコア77.60を達成し、システム結合を除けば、現時点で最も優れた性能と見なせる。また、UAGEC+Fluency(テスト)ベンチマークでは67.71のスコアを記録した。本研究は、UNLP 2023ワークショップの文脈で行われており、ウクライナ語向け文法的誤り訂正(GEC)の共同タスク(Shared Task)として論文発表された。本研究の目的は、RedPenNetアプローチをウクライナ語におけるGEC問題に適用することにある。

RedPenNet による文法的誤り訂正:トークンへの出力、スパンへの注意機構 | 最新論文 | HyperAI超神経