HyperAIHyperAI
vor 11 Tagen

M3TR: Multimodale Mehrlabel-Erkennung mit Transformer

{Jia Li, Yifan Zhao, Jiawei Zhao}
Abstract

Die mehrfach-label-basierte Bilderkennung zielt darauf ab, mehrere Objekte gleichzeitig in einem einzigen Bild zu erkennen. Neuere Ansätze zur Lösung dieses Problems konzentrieren sich auf das Lernen von Abhängigkeiten zwischen gleichzeitig auftretenden Labels, um die hochleveligen semantischen Darstellungen zu verbessern. Allerdings ignorieren diese Methoden häufig die wesentlichen Beziehungen innerhalb der inhärenten visuellen Strukturen und stoßen auf Schwierigkeiten bei der Verständnis kontextueller Zusammenhänge. Um den globalen Kontext visueller Informationen sowie die Wechselwirkungen zwischen visueller und sprachlicher Modalität zu modellieren, schlagen wir den Multi-Modal Multi-Label Recognition TRansformers (M3TR) mit Lernansatz für ternäre Beziehungen zwischen und innerhalb der Modalitäten vor. Für die intra-modalen Beziehungen kombinieren wir gezielt Convolutional Neural Networks (CNNs) und Transformers, wodurch visuelle Strukturen durch das Lernen semantischer Cross-Attention in hochlevelige Merkmale eingebettet werden. Zur Aufbau der Interaktion zwischen visueller und sprachlicher Modalität stellen wir eine sprachliche Cross-Attention vor, die klassenspezifische sprachliche Informationen in den Prozess des Lernens visueller Strukturen integriert. Abschließend präsentieren wir ein sprachlich geleitetes Verbesserungsmodul, das die Darstellung hochleveliger Semantik weiter verstärkt. Experimentelle Ergebnisse zeigen, dass M3TR durch die kooperative Lernstrategie für ternäre Beziehungen neue SOTA-Ergebnisse auf zwei öffentlichen Benchmarks für mehrfach-label-basierte Bilderkennung erzielt.

M3TR: Multimodale Mehrlabel-Erkennung mit Transformer | Neueste Forschungsarbeiten | HyperAI