17日前

マルチモーダルアプローチによる内視鏡VCE画像分類:BiomedCLIP-PubMedBERTを用いた手法

Nagarajan Ganapathy, Podakanti Satyajith Chary, Teja Venkata Ramana Kumar Pithani, Pavan Kavati, Arun Kumar S
マルチモーダルアプローチによる内視鏡VCE画像分類:BiomedCLIP-PubMedBERTを用いた手法
要約

本論文では、胃腸内視鏡検査の動画内視鏡(Video Capsule Endoscopy: VCE)画像フレームにおける異常の分類を目的として、多モーダルモデルであるBiomedCLIP PubMedBERTを高度に微調整する新たなアプローチを提示する。この手法は、PubMedBERTによる言語モデルとVision Transformer(ViT)を組み合わせ、内視鏡画像を処理することで、以下の10種類の特定クラスに画像を分類する:動脈拡張、出血、糜爛、紅斑、異物、リンパ管拡張、ポリープ、潰瘍、寄生虫、および正常。本研究のワークフローは、画像前処理を含み、BiomedCLIPモデルを微調整して視覚的およびテキスト的入力の両方に対して高品質な埋め込み表現を生成し、類似度スコアリングにより両モーダルの表現を整合化することで分類を実現している。分類精度、正解率、再現率、F1スコアなどの性能指標から、本モデルが内視鏡フレームにおける異常の正確な同定に優れた能力を有していることが示され、臨床診断における実用的応用の可能性を示している。