
要約
可読性評価において、従来の手法は主に数百もの言語的特徴量を用いた機械学習分類器が用いられてきた。一方で、深層学習モデルはほぼすべての自然言語処理(NLP)タスクにおいて主流のアプローチとなっているが、可読性評価への応用はまだ十分に検討されていない。本論文では、特徴量投影(feature projection)と長さバランス損失(length-balanced loss)を組み合わせたBERTベースのモデル(BERT-FP-LBL)を、可読性評価に提案する。特に、トピック特徴を抽出するための新しい難易度知識を活用した半教師あり手法を提示し、従来の言語的特徴量を補完する。また、言語的特徴量から正規直交特徴量を抽出するための投影フィルタリングを採用し、BERTによる表現を補完する。さらに、データの長さ分布が著しく異なる問題に対処するため、新しい長さバランス損失を設計した。本モデルは、2つの英語ベンチマークデータセットおよび中国語教科書データセットにおいて、最先端の性能を達成し、ある英語データセットでは99%に近い正確性(accuracy)を実現した。さらに、一貫性テストにおいて人間の専門家と同等の結果を得ることに成功した。