2ヶ月前
知識注入プロンプトを用いた多ラベル少ショットICDコーディングのファインチューニング
Zhichao Yang; Shufan Wang; Bhanu Pratap Singh Rawat; Avijit Mitra; Hong Yu

要約
自動国際疾病分類(ICD)コード付けの目的は、平均3,000以上のトークンを持つ医療記録に複数のICDコードを割り当てることである。このタスクは、多ラベル割り当ての高次元空間(数万のICDコード)と長尾問題:頻繁に割り当てられるコードが少数(一般的な疾患)である一方、大多数のコード(稀少疾患)は頻繁に割り当てられないという課題により難易度が高い。本研究では、ラベルセマンティクスを使用したプロンプトベースの微調整技術を適応させることで長尾問題に対処する方法を提案する。これは、少量学習設定において効果的であることが示されている。さらに医療分野での性能向上を目指し、階層構造、同義語、略語という3つのドメイン固有の知識を注入した知識強化型Longformerを提案し、コントラスト学習を使用した事前学習を行う。MIMIC-III-fullというコード割り当てのベンチマークデータセットでの実験結果から、提案手法が従来の最先端手法よりもマクロF1スコアで14.5%向上(10.3から11.8へ、P<0.001)することが確認された。また、少量学習設定でのモデル性能をさらに検証するために、新しい希少疾患コーディングデータセットMIMIC-III-rare50を作成し、これに対して提案モデルはマクロF1スコアを17.1から30.4へ、マイクロF1スコアを17.2から32.6へ向上させた。注:「トークン」は日本語でも「token」と表記されることが多いですが、「単語」や「文字列」といった意味合いでも解釈できます。ただし専門的な文脈では「トークン」を使用するのが一般的です。