12日前

ウクライナ語の文法的誤り訂正のための低リソースアプローチ

{and Dan Roth, Alla Rozovskaya, Frank Palma Gomez}
ウクライナ語の文法的誤り訂正のための低リソースアプローチ
要約

ウクライナ語の文法的誤り訂正(GEC)を対象とした共同課題に参加した当システムについて報告する。本研究では、英語および低リソース言語の誤り訂正に用いられてきた大規模事前学習言語モデルおよび合成データを活用する2つのアプローチを実装した。第一のアプローチは、大規模な多言語言語モデル(mT5)を2段階で微調整するものであり、まず合成データ上で初期微調整を行い、その後、正解データ(gold data)上でさらに微調整する。第二のアプローチは、合成データ上で事前学習された(より小型の)seq2seq Transformerモデルを、正解データ上で微調整するものである。本研究のmT5ベースモデルは、「GEC only」トラックで1位を獲得し、「GEC+Fluency」トラックでは非常に近い2位を記録した。本研究の主な2つの革新点は、(1)合成データを用いた初期微調整の後、正解データでさらに微調整する段階的微調整戦略、および(2)既存のノイズ付加(noisification)手法を補完する高品質な腐敗(corruption)手法であり、これは往復機械翻訳(roundtrip machine translation)に基づくものである。

ウクライナ語の文法的誤り訂正のための低リソースアプローチ | 最新論文 | HyperAI超神経