
要約
極大マルチラベルテキスト分類(Extreme Multi-Label Text Classification: XMTC)は、非常に大規模なラベル集合から文書に最も関連性の高いラベルを付与することを目指しています。特に、尾部ラベル(tail labels)については、訓練用の文書が少ないため、分類器の構築が困難な問題となっています。本論文では、文書の内容とラベルの相関関係を活用することで、各文書と極大ラベル間の意味的な関係性をより効果的に探索することを目指します。私たちの目標は、ハイブリッドアテンション深層ニューラルネットワークモデル(Label-Aware Hybrid Attention: LAHA)を使用して、各文書に対して明示的なラベル意識的な表現を確立することです。LAHAは3つの部分で構成されています。第1部分では、マルチラベル自己注意機構を採用し、各単語がラベルに及ぼす影響度を検出します。第2部分では、ラベル構造と文書内容を利用し、同じ潜在空間内で単語とラベル間の意味的なつながりを決定します。第3部分では、適応融合戦略が設計されており、前2つの部分の本質を十分に統合した最終的なラベル意識的な文書表現を得ることを目指しています。6つのベンチマークデータセットにおいて最新手法との比較実験を行った結果、提案したLAHA手法の優位性が示されました。特に尾部ラベルに対する性能向上が確認されています。