7ヶ月前

概要

英語などの主要言語を対象とした高品質な解析ツールは多数存在するが、ペルシャ語（ファルシー）のような重要ではあるがリソースが限られている言語については、同等のフリーなツールを入手・統合するのは困難である。本稿では、書かれたペルシャ語を扱いたい研究者や開発者にとって有用である、高精度かつ効率的なペルシャ語解析フロントエンドについて報告する。本研究で採用した既存のコンポーネントおよびリソースには、Dadegan Treebank（Rasooli他、2013）で訓練されたCarnegie MellonのTurboParserおよびTurboTagger（Martins他、2010）、ウプサラ大学のペルシャ語テキスト正規化ツールPrePer（Seraji、2013）、同大学のペルシャ語トークナイザ（Seraji他、2012a）、およびJon Dehdari氏のPerStem（Jadidinejad他、2010）が含まれる。これらのツール群（本研究で開発・公開した追加の正規化およびトークナイズモジュールと組み合わせることで）を用いた依存解析において、保有テストデータセット上でラベル付きアタッチメントスコア（labeled attachment score）89.49％、ラベルなしアタッチメントスコア（unlabeled attachment score）92.19％、ラベル精度スコア（label accuracy score）91.38％を達成した。使用したすべてのコンポーネントおよびリソースは、自由に利用可能である。本稿では、各コンポーネントおよびリソースの説明に加え、これらの選定に至った根拠についても詳述する。

ソースPDF コードを表示