6ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Nagarajan Ganapathy Podakanti Satyajith Chary Teja Venkata Ramana Kumar Pithani Pavan Kavati Arun Kumar S

概要

本論文では、胃腸内視鏡検査の動画内視鏡（Video Capsule Endoscopy: VCE）画像フレームにおける異常の分類を目的として、多モーダルモデルであるBiomedCLIP PubMedBERTを高度に微調整する新たなアプローチを提示する。この手法は、PubMedBERTによる言語モデルとVision Transformer（ViT）を組み合わせ、内視鏡画像を処理することで、以下の10種類の特定クラスに画像を分類する：動脈拡張、出血、糜爛、紅斑、異物、リンパ管拡張、ポリープ、潰瘍、寄生虫、および正常。本研究のワークフローは、画像前処理を含み、BiomedCLIPモデルを微調整して視覚的およびテキスト的入力の両方に対して高品質な埋め込み表現を生成し、類似度スコアリングにより両モーダルの表現を整合化することで分類を実現している。分類精度、正解率、再現率、F1スコアなどの性能指標から、本モデルが内視鏡フレームにおける異常の正確な同定に優れた能力を有していることが示され、臨床診断における実用的応用の可能性を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル

コンピュータビジョン

Nagarajan Ganapathy Podakanti Satyajith Chary Teja Venkata Ramana Kumar Pithani Pavan Kavati Arun Kumar S

概要

本論文では、胃腸内視鏡検査の動画内視鏡（Video Capsule Endoscopy: VCE）画像フレームにおける異常の分類を目的として、多モーダルモデルであるBiomedCLIP PubMedBERTを高度に微調整する新たなアプローチを提示する。この手法は、PubMedBERTによる言語モデルとVision Transformer（ViT）を組み合わせ、内視鏡画像を処理することで、以下の10種類の特定クラスに画像を分類する：動脈拡張、出血、糜爛、紅斑、異物、リンパ管拡張、ポリープ、潰瘍、寄生虫、および正常。本研究のワークフローは、画像前処理を含み、BiomedCLIPモデルを微調整して視覚的およびテキスト的入力の両方に対して高品質な埋め込み表現を生成し、類似度スコアリングにより両モーダルの表現を整合化することで分類を実現している。分類精度、正解率、再現率、F1スコアなどの性能指標から、本モデルが内視鏡フレームにおける異常の正確な同定に優れた能力を有していることが示され、臨床診断における実用的応用の可能性を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています