
要約
未知クラスのテキスト分類は、自然言語処理における困難な課題であり、主に2種類のアプローチを使用して試みられています。類似性に基づくアプローチでは、テキスト文書表現とクラス説明表現の間の類似性に基づいてインスタンスを分類しようとします。ゼロショットテキスト分類アプローチでは、学習タスクから得られた知識を一般化し、未知のクラスに適切なラベルをテキスト文書に割り当てることを目指します。既存の研究ではこれらのカテゴリに対する個々のアプローチがすでに調査されていますが、文献上の実験は一貫した比較を提供していません。本論文では、このギャップに対応するために、未知クラスのテキスト分類における異なる類似性に基づくアプローチとゼロショットアプローチを系統的に評価しています。最新の手法が4つのテキスト分類データセット(そのうち1つは医療領域からの新しいデータセット)でベンチマークテストされています。さらに、既存の研究で使用されている他のベースラインが弱い分類結果しか得られず、簡単に上回られるため、新たなSimCSEおよびSBERTベースのベースラインが提案されています。最後に、無教師テキスト分類において従来の最先端手法を上回る新しい類似性に基づくLbl2TransformerVecアプローチが紹介されます。我々の実験結果は、大部分の場合において類似性に基づくアプローチがゼロショットアプローチを大幅に上回ることを示しています。また、単純なテキスト表現ではなくSimCSEやSBERT埋め込みを使用することで、類似性に基づく分類結果がさらに向上することが確認されました。