2ヶ月前

SIGMORPHON 2022の形態素分割共有タスク

Khuyagbaatar Batsuren; Gábor Bella; Aryaman Arora; Viktor Martinović; Kyle Gorman; Zdeněk Žabokrtský; Amarsanaa Ganbold; Šárka Dohnalová; Magda Ševčíková; Kateřina Pelegrinová; Fausto Giunchiglia; Ryan Cotterell; Ekaterina Vylomova
SIGMORPHON 2022の形態素分割共有タスク
要約

SIGMORPHON 2022の形態素分割共有タスクは、単語を形態素の系列に分解するシステムに挑戦を与え、複合語、派生、屈折を含むほとんどの形態論的タイプをカバーしました。サブタスク1(単語レベルの形態素分割)では、チェコ語、英語、スペイン語、ハンガリー語、フランス語、イタリア語、ロシア語、ラテン語、モンゴル語の9言語で500万単語が対象となり、7チームから13件のシステム提出があり、最優秀システムは全言語平均でF1スコア97.29%を達成し、英語(93.84%)からラテン語(99.38%)まで変動しました。サブタスク2(文レベルの形態素分割)では、チェコ語、英語、モンゴル語の3言語で18,735文が対象となり、3チームから10件のシステム提出があり、最優秀システムはすべての最先端のサブワードトークナイゼーション手法(BPE, ULM, Morfessor2)を絶対値で30.71%上回りました。エラー分析を容易にし、将来の研究を支援するために、すべてのシステム予測結果、評価スクリプトおよびゴールドスタンダードデータセットを公開しました。

SIGMORPHON 2022の形態素分割共有タスク | 最新論文 | HyperAI超神経