
要約
マルチラベルテキスト分類(MLTC)における主要な課題の一つは、可能なラベル間の差異およびラベル間の相関関係を効果的に活用することである。本論文では、ラベルに依存する情報を含む文書表現を得るため、ラベル別事前学習(Label-Wise Pre-Training; LW-PT)手法を提案してこの課題に取り組む。その基本的な考え方は、マルチラベル文書が複数のラベル別表現の組み合わせとして表現可能であり、相関関係を持つラベルは常に同じまたは類似した文書内で共起することである。LW-PTは、ラベル別文書分類タスクを構築し、ラベル別文書エンコーダを訓練することで、このアイデアを実装する。最終的に、事前学習されたラベル別エンコーダを下流のMLTCタスクに微調整する。広範な実験結果により、提案手法が従来の最先端モデルに対して顕著な優位性を示し、合理的なラベル関係を発見可能であることが検証された。コードは他の研究者の活用を促進するため公開されている。