Ein multimodaler Ansatz zur Klassifikation endoskopischer VCE-Bilder unter Verwendung von BiomedCLIP-PubMedBERT

Diese Arbeit präsentiert einen fortgeschrittenen Ansatz zur Feinabstimmung von BiomedCLIP PubMedBERT, einem multimodalen Modell, zur Klassifizierung von Abnormitäten in Bildern aus Video-Kapselendoskopie (VCE), mit dem Ziel, die diagnostische Effizienz im Bereich der gastroenterologischen Versorgung zu verbessern. Durch die Integration des Sprachmodells PubMedBERT mit einem Vision Transformer (ViT) zur Verarbeitung endoskopischer Bilder klassifiziert unsere Methode Bilder in zehn spezifische Klassen: Angioektasie, Blutung, Erosion, Erythemat, Fremdkörper, Lymphangiektasie, Polyp, Ulkus, Würmer und Normal. Unser Arbeitsablauf umfasst Bildvorverarbeitung und die Feinabstimmung des BiomedCLIP-Modells zur Generierung hochwertiger Embeddings für visuelle und textuelle Eingaben, die mittels Similaritätsbewertung aufeinander abgestimmt werden, um die Klassifizierung zu ermöglichen. Die Leistungsmetriken, einschließlich Klassifizierungsgenauigkeit, Genauigkeit, Recall und F1-Score, zeigen die starke Fähigkeit des Modells, Abnormitäten in endoskopischen Bildern präzise zu erkennen, und belegen dessen großes Potenzial für die praktische Anwendung in der klinischen Diagnostik.