HyperAIHyperAI

Command Palette

Search for a command to run...

M3TR: Multimodale Mehrlabel-Erkennung mit Transformer

Jia Li Yifan Zhao Jiawei Zhao

Zusammenfassung

Die mehrfach-label-basierte Bilderkennung zielt darauf ab, mehrere Objekte gleichzeitig in einem einzigen Bild zu erkennen. Neuere Ansätze zur Lösung dieses Problems konzentrieren sich auf das Lernen von Abhängigkeiten zwischen gleichzeitig auftretenden Labels, um die hochleveligen semantischen Darstellungen zu verbessern. Allerdings ignorieren diese Methoden häufig die wesentlichen Beziehungen innerhalb der inhärenten visuellen Strukturen und stoßen auf Schwierigkeiten bei der Verständnis kontextueller Zusammenhänge. Um den globalen Kontext visueller Informationen sowie die Wechselwirkungen zwischen visueller und sprachlicher Modalität zu modellieren, schlagen wir den Multi-Modal Multi-Label Recognition TRansformers (M3TR) mit Lernansatz für ternäre Beziehungen zwischen und innerhalb der Modalitäten vor. Für die intra-modalen Beziehungen kombinieren wir gezielt Convolutional Neural Networks (CNNs) und Transformers, wodurch visuelle Strukturen durch das Lernen semantischer Cross-Attention in hochlevelige Merkmale eingebettet werden. Zur Aufbau der Interaktion zwischen visueller und sprachlicher Modalität stellen wir eine sprachliche Cross-Attention vor, die klassenspezifische sprachliche Informationen in den Prozess des Lernens visueller Strukturen integriert. Abschließend präsentieren wir ein sprachlich geleitetes Verbesserungsmodul, das die Darstellung hochleveliger Semantik weiter verstärkt. Experimentelle Ergebnisse zeigen, dass M3TR durch die kooperative Lernstrategie für ternäre Beziehungen neue SOTA-Ergebnisse auf zwei öffentlichen Benchmarks für mehrfach-label-basierte Bilderkennung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp