
要約
短文分類は自然言語処理における重要な課題であり、かつ困難な領域である。このため、多数の高度に専門化された短文分類器が開発されている。しかし、近年の短文研究において、従来のテキスト分類において最先端(SOTA)を誇る手法、特にTransformerのみを用いたアプローチは十分に活用されていない。本研究では、さまざまな短文分類器および最も優れた性能を示す従来型テキスト分類器の性能を検証する。さらに、特徴量が限られたベンチマークデータセットへの過度な依存という問題に対処するため、2つの新しい実世界の短文データセットを用いてその影響を調査する。実験の結果は明確に、Transformerが短文分類タスクにおいてSOTAの精度を達成していることを示しており、専用の短文処理技術の必要性について再考を促すものである。