9日前
胸部X線画像における胸部疾患の長尾分類:新たなベンチマーク研究
Gregory Holste, Song Wang, Ziyu Jiang, Thomas C. Shen, George Shih, Ronald M. Summers, Yifan Peng, Zhangyang Wang

要約
胸部レントゲン撮影などの画像検査では、一般的な所見が少数にとどまり、一方でまれな所見は非常に多く存在する。熟練した放射線専門医は、代表的な例をいくつか学習することで、稀な疾患の画像所見を習得できるが、こうした「長尾分布(long-tailed distribution)」のデータから機械学習モデルを学習させるのははるかに困難である。標準的な手法では、頻度の高いクラスに偏向しやすいため、稀だが重要なクラスの識別性能が低下するリスクがある。本論文では、胸部X線画像における胸部疾患という特定領域における長尾学習問題について、包括的なベンチマーク研究を報告する。我々は、自然に分布する胸部X線データからの学習に注目し、頻度の高い「ヘッド(head)」クラスだけでなく、稀であるが臨床的に重要な「テール(tail)」クラスの分類精度の向上も最適化することを目的とする。これを実現するために、長尾学習手法の開発を促進するための挑戦的な新しい胸部X線画像ベンチマークを提案する。本ベンチマークは、19クラスおよび20クラスの胸部疾患分類を対象とした2つの胸部X線データセットから構成されており、訓練データとして最大53,000枚、最小7枚のラベル付き画像を含む。本研究では、この新ベンチマーク上で標準的手法および最先端の長尾学習手法を評価し、長尾医療画像分類において特に有効な手法の特徴を分析するとともに、今後のアルゴリズム設計に向けた知見を整理する。データセット、学習済みモデル、コードは、https://github.com/VITA-Group/LongTailCXR にて公開されている。