11日前

テキストの可読性評価の最前線:トランスフォーマーが手作業で設計された言語特徴と出会う

Bruce W. Lee, Yoo Sung Jang, Jason Hyung-Jong Lee
テキストの可読性評価の最前線:トランスフォーマーが手作業で設計された言語特徴と出会う
要約

読解性評価における2つの重要な改良を報告する。第一に、高度な意味論に基づく3つの新規特徴の導入であり、第二に、従来の機械学習モデル(例:手作業で設計された特徴を用いるランダムフォレスト)とトランスフォーマー(例:RoBERTa)を組み合わせることでモデル性能を向上させることの時宜を得た証拠である。まず、適切なトランスフォーマーと従来の機械学習モデルの組み合わせを検討した。次に、自ら開発した抽出ソフトウェアを用いて、255の手作業で設計された言語学的特徴を抽出した。最後に、これらを統合して複数のハイブリッドモデルを構築し、読解性評価において広く用いられるデータセットで最先端(SOTA)の精度を達成した。特に、手作業特徴の導入により、小規模なデータセットにおけるモデル性能が向上した。注目すべきは、RoBERTA-RF-T1というハイブリッドモデルが、99%というほぼ完璧に近い分類精度を達成し、従来のSOTAから20.3%の向上を実現した点である。

テキストの可読性評価の最前線:トランスフォーマーが手作業で設計された言語特徴と出会う | 最新論文 | HyperAI超神経