Aufmerksamkeit über Modalitäten hinweg mit semantischen Graph-Embeddings für die Mehrfach-Label-Klassifikation

Die Mehrfachlabel-Bild- und Videoklassifikation sind zentrale, jedoch herausfordernde Aufgaben im Bereich des maschinellen Sehens. Die Hauptprobleme liegen in der Erfassung räumlicher oder zeitlicher Abhängigkeiten zwischen den Labels sowie in der Identifizierung der Orte diskriminativer Merkmale für jede Klasse. Um diesen Herausforderungen zu begegnen, schlagen wir die Verwendung von Cross-Modality-Attention in Kombination mit semantischer Graphen-Embedding für die Mehrfachlabel-Klassifikation vor. Aufbauend auf dem aufgebauten Label-Graphen entwickeln wir eine auf Adjazenz basierende Ähnlichkeits-Graphen-Embedding-Methode, um semantische Label-Embeddings zu lernen, die explizit Label-Beziehungen ausnutzen. Anschließend generieren wir unsere neuartigen Cross-Modality-Attention-Maps mit der Orientierung durch die gelernten Label-Embeddings. Experimente auf zwei Mehrfachlabel-Bildklassifikationsdatensätzen (MS-COCO und NUS-WIDE) zeigen, dass unsere Methode andere bestehende State-of-the-Art-Verfahren übertrifft. Zudem validieren wir unsere Methode auf einem großen Mehrfachlabel-Videoklassifikationsdatensatz (YouTube-8M Segments), und die Bewertungsergebnisse belegen die Verallgemeinerungsfähigkeit unserer Methode.