HyperAIHyperAI
vor 11 Tagen

Frage-Antwort-Über-sprachige Bildübereinstimmung für schwach überwachte semantische Segmentierung

Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen
Frage-Antwort-Über-sprachige Bildübereinstimmung für schwach überwachte semantische Segmentierung
Abstract

Class Activation Map (CAM) ist zu einem beliebten Werkzeug für weakly supervised semantic segmentation (WSSS) geworden, da es die Lokalisierung von Objektregionen in Bildern ermöglicht, wobei lediglich bilddatenbasierte Etiketten verwendet werden. Allerdings leiden bestehende CAM-Verfahren unter einer Unteraktivierung der Zielobjektregionen und einer falschen Aktivierung von Hintergrundregionen, da der Mangel an detaillierter Supervision die Fähigkeit des Modells beeinträchtigen kann, das Bild als Ganzes zu verstehen. In diesem Artikel stellen wir einen neuartigen Ansatz namens Question-Answer Cross-Language-Image Matching Framework für WSSS (QA-CLIMS) vor, der auf einem Vision-Language-Grundmodell basiert, um die textbasierte Bildinterpretation zu maximieren und die Generierung von Aktivierungskarten zu leiten. Zunächst werden eine Reihe sorgfältig entworfener Fragen mithilfe von Question-Answer Prompt Engineering (QAPE) an ein VQA-Modell (Visual Question Answering) gestellt, um eine Korpus von Vordergrundobjekten und Hintergründen zu generieren, das an die jeweiligen Abfragen angepasst ist. Anschließend wenden wir kontrastive Lernverfahren in einem Region Image Text Contrastive (RITC)-Netzwerk an, um die gewonnenen Vordergrund- und Hintergrundregionen mit dem generierten Korpus zu vergleichen. Unser Ansatz nutzt die reichhaltige textuelle Information aus dem offenen Vokabular als zusätzliche Supervision, wodurch das Modell in der Lage ist, hochwertige CAMs mit vollständiger Objektregion zu erzeugen und die falsche Aktivierung von Hintergrundregionen zu reduzieren. Wir führen eine umfassende Analyse durch, um die Wirksamkeit des vorgeschlagenen Verfahrens zu validieren, und zeigen, dass unser Ansatz sowohl auf den Datensätzen PASCAL VOC 2012 als auch MS COCO state-of-the-art Ergebnisse erzielt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/CVI-SZU/QA-CLIMS

Frage-Antwort-Über-sprachige Bildübereinstimmung für schwach überwachte semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI