
要約
我々は、コンテクスト化された埋め込み(特にBERT)を基にした新たなディアクリティクス修復アーキテクチャを提案し、12のディアクリティクスを使用する言語で評価を行いました。さらに、形態学的に豊かで高度なディアクリティクスを持つチェコ語について詳細な誤り分析を行いました。特に、すべての誤予測を手動で注釈付けを行い、それらのうち約44%が実際には誤りではなく、妥当な変体(19%)またはシステムによる誤データの訂正(25%)であることを示しました。最後に、実際の誤りを詳細に分類しました。コードはhttps://github.com/ufal/bert-diacritics-restoration で公開しています。