8ヶ月前

概要

医療視覚質問応答（MedVQA）は、人工知能を活用して医療画像に基づいて質問を解釈し回答することで、診断の精度向上と医療サービスの提供に大きな機会をもたらします。本研究では、MedVQAの問題を人間と機械の相互作用に自然に対応する生成タスクとして再定義し、事前学習された視覚エンコーダから得られる視覚情報を大規模言語モデルと合わせて医療視覚理解を行う生成ベースのモデルを提案します。また、大規模な医療視覚質問応答データセットであるPMC-VQAを構築するためのスケーラブルなパイプラインを確立しました。このデータセットには、様々なモダリティや疾患をカバーする14万9千枚の画像に対する22万7千組のVQAペアが含まれています。我々はPMC-VQAで提案されたモデルを訓練し、その後VQA-RAD、SLAKE、Image-Clef-2019などの複数の公開ベンチマークで微調整を行いました。これにより、既存のMedVQAモデルよりも関連性が高く正確な自由形式の回答を生成する点で大幅に性能を上回りました。さらに、手動検証を受けたテストセットを提案しており、これは著しく難易度が高いため、生成型MedVQA手法の開発状況監視に役立ちます。包括的な評価と比較を容易にするために、https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical においてリーダーボードを維持しています。ここでは進行状況追跡や最先端アプローチのベンチマーク化に集中したリソースが提供されています。PMC-VQAデータセットは研究分野にとって重要な資源となり、MedVInTはMedVQA領域における重要な突破となっています。

ソースPDF