Command Palette
Search for a command to run...
Med-Banana-50K:テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット
Med-Banana-50K:テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット
Zhihui Chen Mengling Feng
Abstract
医用画像編集は、データ拡張、モデルの解釈可能性、医療教育、治療シミュレーションなど幅広い応用を持つ重要な技術として浮上している。しかし、解剖学的・臨床的な厳格な制約を満たす医用文脈に特化した大規模かつ高品質でオープンに利用可能なデータセットの不足により、この分野の進展は著しく阻害されてきた。このギャップを埋めるために、本研究では、23の疾患を対象とした胸部X線、脳MRI、眼底写真の3種類の画像をカバーし、5万件を超える医療専門家が検証した画像編集データセット「Med-Banana-50K」を紹介する。各サンプルは、病変の追加と削除という双方向編集を可能としており、実臨床画像を基にGemini-2.5-Flash-Imageを用いて構築されている。本データセットの主な特徴は、医学的根拠に基づいた品質管理プロトコルの採用である。具体的には、指示遵守性、構造的妥当性、画像の現実性、忠実度の維持といった評価基準に基づき、大規模言語モデル(LLM)をジャッジとして用いた評価フレームワークを採用し、最大5ラウンドにわたる反復的精緻化を実施している。さらに、Med-Banana-50Kには、約3万7千件の失敗した編集試行と、その全評価ログを含んでおり、好み学習やアライメント研究の支援に貢献する。本データセットは、大規模かつ医学的に厳密で、完全に文書化されたリソースとして提供されることで、信頼性の高い医用画像編集システムの開発と評価に不可欠な基盤を確立する。