HyperAIHyperAI
il y a 17 jours

Une approche multimodale pour la classification d’images endoscopiques VCE utilisant BiomedCLIP-PubMedBERT

Nagarajan Ganapathy, Podakanti Satyajith Chary, Teja Venkata Ramana Kumar Pithani, Pavan Kavati, Arun Kumar S
Une approche multimodale pour la classification d’images endoscopiques VCE utilisant BiomedCLIP-PubMedBERT
Résumé

Cet article présente une approche avancée de fine-tuning du modèle multimodal BiomedCLIP PubMedBERT, visant à classifier les anomalies présentes dans les images issues de la vidéo-capsule endoscopique (VCE), dans le but d’améliorer l’efficacité diagnostique en santé gastroentérologique. En intégrant le modèle linguistique PubMedBERT avec un Vision Transformer (ViT) pour traiter les images endoscopiques, notre méthode permet de catégoriser les images en dix classes spécifiques : angioectasie, saignement, érosion, érythème, corps étranger, lymphangioectasie, polype, ulcère, vers et image normale. Notre flux de travail inclut un prétraitement des images ainsi qu’un fine-tuning du modèle BiomedCLIP afin de générer des embeddings de haute qualité pour les entrées visuelles et textuelles, alignés grâce à une évaluation de similarité pour la classification. Les métriques de performance, telles que la précision, le rappel et le score F1, démontrent la capacité du modèle à identifier avec exactitude les anomalies dans les images endoscopiques, indiquant un fort potentiel d’application pratique dans le diagnostic clinique.