HyperAIHyperAI
vor 2 Monaten

Semantische Darstellungsmischung für die Mehrfachbeschriftung von Bildern mit teilweise vorhandenen Beschriftungen

Pu, Tao ; Chen, Tianshui ; Wu, Hefeng ; Lin, Liang
Semantische Darstellungsmischung für die Mehrfachbeschriftung von Bildern mit teilweise vorhandenen Beschriftungen
Abstract

Das Training von Mehrfachbeschriftungs-Bilderkennungsmodellen mit teilweise bekannten Beschriftungen, bei denen nur einige Beschriftungen für jedes Bild bekannt sind, während andere unbekannt bleiben, ist eine erheblich herausfordernde und praktische Aufgabe. Um diese Aufgabe zu bewältigen, basieren aktuelle Algorithmen hauptsächlich auf der Vortraining von Klassifikations- oder Ähnlichkeitsmodellen, um Pseudo-Beschriftungen für die unbekannten Beschriftungen zu generieren. Diese Algorithmen hängen jedoch von ausreichenden Mehrfachbeschriftungs-Annotierungen ab, um die Modelle zu trainieren, was insbesondere bei einem geringen Anteil bekannter Beschriftungen zu einer schlechten Leistung führt. In dieser Arbeit schlagen wir vor, kategoriebezogene Darstellungen über verschiedene Bilder hinweg zu mischen, um Informationen der bekannten Beschriftungen zur Ergänzung der unbekannten Beschriftungen zu transferieren. Dies ermöglicht es uns, auf Vortrainingsmodelle zu verzichten und somit nicht von ausreichenden Annotierungen abhängig zu sein. Zu diesem Zweck entwickeln wir ein einheitliches semantikbewusstes Darstellungs-Mischungs-Framework (SARB), das instanzbasierte und prototypbasierte semantische Darstellungen nutzt, um unbekannte Beschriftungen durch zwei ergänzende Module zu vervollständigen: 1) Ein instanzbasiertes Darstellungs-Mischungs-Modul (ILRB) mischt die Darstellungen der bekannten Beschriftungen eines Bildes mit den Darstellungen der unbekannten Beschriftungen eines anderen Bildes, um diese unbekannten Beschriftungen zu ergänzen. 2) Ein prototypbasiertes Darstellungs-Mischungs-Modul (PLRB) lernt stabiler werdende Darstellungstypen für jede Kategorie und mischt die Darstellung der unbekannten Beschriftungen mit den Prototypen entsprechender Beschriftungen, um diese Beschriftungen zu ergänzen. Ausführliche Experimente auf den Datensätzen MS-COCO, Visual Genome und Pascal VOC 2007 zeigen, dass das vorgeschlagene SARB-Framework eine überlegene Leistung gegenüber aktuellen führenden Konkurrenten in allen Einstellungen des Anteils bekannter Beschriftungen erzielt. Bei einem Anteil bekannter Beschriftungen von 10 % erreicht das Framework Verbesserungen des mAP von 4,6 %, 4 % und 2,2 % auf diesen drei Datensätzen. Der Code ist unter https://github.com/HCPLab-SYSU/HCP-MLR-PL verfügbar.

Semantische Darstellungsmischung für die Mehrfachbeschriftung von Bildern mit teilweise vorhandenen Beschriftungen | Neueste Forschungsarbeiten | HyperAI