2ヶ月前

チェコ語におけるBERTを用いたディアクリティック復元の分析

Jakub Náplava; Milan Straka; Jana Straková
チェコ語におけるBERTを用いたディアクリティック復元の分析
要約

我々は、コンテクスト化された埋め込み(特にBERT)を基にした新たなディアクリティクス修復アーキテクチャを提案し、12のディアクリティクスを使用する言語で評価を行いました。さらに、形態学的に豊かで高度なディアクリティクスを持つチェコ語について詳細な誤り分析を行いました。特に、すべての誤予測を手動で注釈付けを行い、それらのうち約44%が実際には誤りではなく、妥当な変体(19%)またはシステムによる誤データの訂正(25%)であることを示しました。最後に、実際の誤りを詳細に分類しました。コードはhttps://github.com/ufal/bert-diacritics-restoration で公開しています。

チェコ語におけるBERTを用いたディアクリティック復元の分析 | 最新論文 | HyperAI超神経