仮想イメージング試験は、COVID-19の画像診断におけるAIシステムの透明性と信頼性を向上させた。

医療画像における人工知能(AI)モデルの信頼性は、特に新型コロナウイルス感染症(COVID-19)パンデミック期間中に再現性の問題や不明瞭な臨床的洞察によって挑戦を受けています。これらの懸念に対処するため、私たちは臨床データセットとシミュレーションデータセットの両方を使用してAIシステムを評価する仮想イメージング試験(Virtual Imaging Trials: VIT)フレームワークを提案します。本研究では、コンピュータ断層撮影(Computed Tomography: CT)および胸部X線撮影(Chest Radiography: CXR)を使用したCOVID-19診断に向けた畳み込みニューラルネットワーク(Convolutional Neural Networks: CNNs)の利用に焦点を当てています。私たちは3D ResNetのような構造と2D EfficientNetv2の構造を持つ複数のAIモデルを開発し、多様なデータセットでテストしました。評価指標には曲线下面積(Area Under the Curve: AUC)が含まれました。AUCの信頼区間を算出するためのDeLong法などの統計解析手法が用いられ、性能差を評価しました。研究結果は、VITが客観的な評価のための堅牢なプラットフォームを提供し、データセット特性、患者要因、および画像物理学がAI効果に及ぼす重要な影響を明らかにすることを示しています。特に、最も多様なデータセットで学習されたモデルが最高の外部検証性能を示し、CTではAUC値が0.73から0.76、CXRでは0.70から0.73という範囲でした。内部検証ではより高いAUC値(CTで0.77から0.85、CXRで0.77から1.0)が得られましたが、外部検証での性能低下が顕著であり、これは多様かつ包括的な学習・テストデータの重要性を強調しています。このアプローチはモデルの透明性と信頼性を向上させ、AI性能を決定する要因について詳細な洞察を与えつつ、実験環境と臨床環境とのギャップを埋めることにも貢献します。本研究はVITが医療画像におけるAIシステムの再現性と臨床的有用性を改善する可能性があることを示唆しています。