HyperAIHyperAI

Command Palette

Search for a command to run...

長尾クラス分布を有する多ラベルテキスト分類におけるバランス手法

Yi Huang Buse Giledereli Abdullatif Köksal Arzucan Özgür Elif Ozkirimli

概要

多ラベルテキスト分類は、ラベル間の依存関係を捉える必要があるため、困難なタスクである。クラス分布が長尾型である場合、その難易度はさらに高まる。クラス不均衡問題に対処するため、リサンプリングや再重み付けは一般的な手法として用いられるが、クラス不均衡に加えてラベル依存性が存在する場合には、これらの手法は共通ラベルの過剰サンプリングを引き起こすため、有効性が低下する。本研究では、多ラベルテキスト分類にバランス損失関数を適用する手法を提案する。90ラベルを有する汎用ドメインデータセット(Reuters-21578)および18,211ラベルを有するPubMed由来のドメイン特化データセットを用いた実験により、クラス不均衡およびラベル連結性の両方を内因的に解決できる分布バランス損失関数が、一般的に用いられる損失関数を上回ることを確認した。分布バランス化手法は、画像認識分野で成功裏に活用されてきたが、本研究ではそれが自然言語処理分野においても有効であることを示した。ソースコードは以下のURLから入手可能である:https://github.com/Roche/BalancedLossNLP


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
長尾クラス分布を有する多ラベルテキスト分類におけるバランス手法 | 記事 | HyperAI超神経