17日前
マルチラベル臨床文書分類のための効果的な畳み込み注意機構ネットワーク
{Thomas Schaaf, Matthew R. Gormley, Russell Klopfer, Hua Cheng, Yang Liu}

要約
マルチラベルドキュメント分類(MLDC)問題は、特にラベル集合が大きく、ラベルの分布が長尾型である長文ドキュメントに対して困難を伴う。本稿では、臨床文書からの医療コード予測というMLDC問題に焦点を当て、効果的な畳み込み注意機構ネットワークを提案する。本研究の主な貢献は以下の3点である:(1)スQUEEZE-and-EXCITATIONネットワークと残差ネットワークを組み合わせた深層畳み込み型エンコーダを用いて、ドキュメント全体にわたる情報を統合し、さまざまなテキスト範囲をカバーする意味のあるドキュメント表現を学習する;(2)マルチレイヤーかつ和集合プーリング(sum-pooling)を用いた注意機構を導入し、多スケールな表現から最も情報量の高い特徴を抽出する;(3)二値交差エントロピー損失とフォーカル損失を組み合わせることで、稀なラベルに対する性能を向上させる。評価は医療分野で広く用いられるMIMIC-IIIデータセットを用いて実施した。提案モデルは既存手法を上回り、複数の評価指標において新たな最先端(SOTA)性能を達成した。さらに、本アプローチが言語に依存しない性質を示すために、非英語のデータセット2つにも適用した結果、既存の最良モデルおよび多言語Transformerモデルを大きく上回る性能を発揮した。