事前学習規模が自然および医療用X線胸部画像におけるドメイン内およびドメイン間のフルショットおよびフェイショット転移学習に及ぼす影響

言語モデリングおよび自然画像認識の分野における多数の研究において、事前学習段階におけるモデル規模、データ量、計算リソースの拡大が、モデルの汎化性能および転移学習の効果を顕著に向上させることが示されている。しかし、こうした大規模化のポジティブな影響を検証した多くの研究は、ソースデータとターゲットデータが類似したドメイン内(in-domain)の設定に限定されており、両者の距離が近い状況に限られている。本研究では、完全転移(full-shot)および少サンプル転移(few-shot)の両状況において、ドメイン内およびドメイン外(out-of-domain)の設定における大規模化の影響を初めて体系的に検証するため、大規模かつ公開可能な医療X線胸部画像データセットを統合し、自然画像分野で事前学習に広く用いられるImageNet-1kと同等の規模の医療画像分野用データセットを構築した。その後、ネットワークサイズやソースデータの規模・ドメインを変化させながら、教師あり事前学習を実施。ソースデータとして、大規模な自然画像データ(ImageNet-1k/21k)または大規模な医療用胸部X線データセットを用い、得られた事前学習モデルを自然画像および医療画像の異なるターゲットに転移させた。その結果、ドメイン内における自然画像同士(natural-natural)および医療画像同士(medical-medical)の転移において、大規模な事前学習が顕著な性能向上をもたらすことが確認された。一方、ドメイン間(natural-medical)の転移においては、大規模なX線画像ターゲットに対しては、大規模な事前学習が完全転移(full-shot)の枠組みで効果を発揮したが、小規模なターゲットや少サンプル転移(few-shot)の状況ではその向上効果は顕著ではなかった。特に注目すべきは、非常に大規模な自然画像データ(ImageNet-21k)で事前学習された大規模ネットワークが、現在入手可能な最大規模の医療X線データで事前学習されたネットワークと同等、あるいはそれ以上の性能を、大規模なX線画像ターゲットへの転移において発揮した点である。本研究の結論として、モデル規模および汎用的で医療ドメインに依存しない自然画像データ(例:ImageNet-21k)を用いた大規模な事前学習を大幅に拡大することで、医療ドメイン特有のターゲットへの高品質なドメイン外転移が可能になることが示された。これは、実践において入手困難な大規模な医療ドメイン特有のソースデータに依存することなく、高精度な転移学習を実現する可能性を示している。