階層的なラベルごとの注意ネットワークとラベル埋め込み初期化を使用した説明可能な臨床記録の自動コーディング

臨床記録の診断または手順コード化は、患者の疾患関連情報の符号化された要約を導き出すことを目指しています。このようなコード化は通常、病院で手動で行われますが、自動化することで医療コード化の効率と精度を向上させる可能性があります。最近の自動医療コード化に関する深層学習の研究では、有望な成果が得られています。しかし、これらのモデルの説明可能性は一般的に低く、臨床実践を支援する上で信頼して使用することが困難となっています。また、これらのモデルは多くの場合、ラベル間の独立性を前提としており、疾患コード間の複雑な相関関係を利用できる可能性があるにもかかわらず無視しています。本研究では、階層的ラベル別注意ネットワーク(Hierarchical Label-wise Attention Network, HLAN)を提案します。HLANは、各ラベルに関連する単語や文の重要度(注意重みとして)を量化することによりモデルを解釈することを目指しています。さらに、主要な深層学習モデルをラベル埋め込み(Label Embedding, LE)初期化アプローチで強化することを提案します。このアプローチでは、密接で連続的なベクトル表現を学習し、その表現をモデルの最終層とラベル別注意層に注入します。我々はMIMIC-III退院サマリーを使用して3つの設定で方法を評価しました:全コード、上位50コード、およびUK NHS COVID-19シールディングコードです。実験ではHLANとLE初期化が最先端のニューラルネットワークベースの手法と比較されました。結果として、HLANは上位50コード予測において最良のマイクロレベルAUCと$F_1$スコアを達成し、NHS COVID-19シールディングコード予測でも他のモデルと同等の結果を得ました。各ラベルに対する最も重要な単語や文を選択的に強調することで、HLANは基線モデルやCNNベースのモデルよりもより意味的かつ包括的なモデル解釈を示しました。LE初期化は一貫して自動医療コード化におけるほとんどの深層学習モデルの性能向上に寄与しました。