HyperAIHyperAI

Command Palette

Search for a command to run...

Une approche multimodale pour la classification d’images endoscopiques VCE utilisant BiomedCLIP-PubMedBERT

Nagarajan Ganapathy Podakanti Satyajith Chary Teja Venkata Ramana Kumar Pithani Pavan Kavati Arun Kumar S

Résumé

Cet article présente une approche avancée de fine-tuning du modèle multimodal BiomedCLIP PubMedBERT, visant à classifier les anomalies présentes dans les images issues de la vidéo-capsule endoscopique (VCE), dans le but d’améliorer l’efficacité diagnostique en santé gastroentérologique. En intégrant le modèle linguistique PubMedBERT avec un Vision Transformer (ViT) pour traiter les images endoscopiques, notre méthode permet de catégoriser les images en dix classes spécifiques : angioectasie, saignement, érosion, érythème, corps étranger, lymphangioectasie, polype, ulcère, vers et image normale. Notre flux de travail inclut un prétraitement des images ainsi qu’un fine-tuning du modèle BiomedCLIP afin de générer des embeddings de haute qualité pour les entrées visuelles et textuelles, alignés grâce à une évaluation de similarité pour la classification. Les métriques de performance, telles que la précision, le rappel et le score F1, démontrent la capacité du modèle à identifier avec exactitude les anomalies dans les images endoscopiques, indiquant un fort potentiel d’application pratique dans le diagnostic clinique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp