16日前
長尾クラス分布を有する多ラベルテキスト分類におけるバランス手法
Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli

要約
多ラベルテキスト分類は、ラベル間の依存関係を捉える必要があるため、困難なタスクである。クラス分布が長尾型である場合、その難易度はさらに高まる。クラス不均衡問題に対処するため、リサンプリングや再重み付けは一般的な手法として用いられるが、クラス不均衡に加えてラベル依存性が存在する場合には、これらの手法は共通ラベルの過剰サンプリングを引き起こすため、有効性が低下する。本研究では、多ラベルテキスト分類にバランス損失関数を適用する手法を提案する。90ラベルを有する汎用ドメインデータセット(Reuters-21578)および18,211ラベルを有するPubMed由来のドメイン特化データセットを用いた実験により、クラス不均衡およびラベル連結性の両方を内因的に解決できる分布バランス損失関数が、一般的に用いられる損失関数を上回ることを確認した。分布バランス化手法は、画像認識分野で成功裏に活用されてきたが、本研究ではそれが自然言語処理分野においても有効であることを示した。ソースコードは以下のURLから入手可能である:https://github.com/Roche/BalancedLossNLP。