Strukturierte semantische Übertragung für die Mehrfachbezeichnungserkennung mit teilweise beschrifteten Daten

Die Mehrfachetikettierung von Bildern ist eine grundlegende und praktische Aufgabe, da realweltliche Bilder intrinsisch mehrere semantische Etiketten besitzen. Allerdings ist es schwierig, umfangreiche Mehrfachetikettierungen zu sammeln, aufgrund der Komplexität sowohl der Eingangsbilder als auch der Ausgabetagräume. Um die Annotationskosten zu reduzieren, schlagen wir ein strukturiertes semantisches Transferframework (SST) vor, das das Training von Mehrfachetikettierungsmodellen mit teilweise bekannten Etiketten ermöglicht, d.h., einige Etiketten sind bekannt, während andere fehlen (auch als unbekannte Etiketten bezeichnet).Das Framework besteht aus zwei ergänzenden Transfermodulen, die innerhalb- und zwischenbildliche semantische Korrelationen untersuchen, um Wissen von bekannten Etiketten zu übertragen und Pseudo-Etiketten für unbekannte Etiketten zu generieren. Speziell lernt ein innerbildliches semantisches Transfermodul eine bildspezifische Label-Ko-Änderungsmatrix und ordnet die bekannten Etiketten basierend auf dieser Matrix den unbekannten Etiketten zu. Gleichzeitig lernt ein zwischenbildliches Transfermodul kategoriebezogene Merkmalsähnlichkeiten und unterstützt die Ergänzung von unbekannten Etiketten durch hohe Ähnlichkeiten. Schließlich werden sowohl bekannte als auch generierte Etiketten verwendet, um die Mehrfachetikettierungsmodelle zu trainieren.Ausführliche Experimente mit den Datensätzen Microsoft COCO, Visual Genome und Pascal VOC zeigen, dass das vorgeschlagene SST-Framework eine überlegene Leistung im Vergleich zu aktuellen Stand-der-Technik-Algorithmen erzielt. Der Quellcode ist unter https://github.com/HCPLab-SYSU/HCP-MLR-PL verfügbar.