HyperAIHyperAI

Command Palette

Search for a command to run...

Meshed-Memory Transformer für Bildbeschreibung

Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara

Zusammenfassung

Transformer-basierte Architekturen stellen den Stand der Technik bei sequenzbasierten Modellierungsaufgaben wie maschinellem Übersetzen und Sprachverstehen dar. Ihre Anwendbarkeit in multimodalen Kontexten wie Bildbeschreibung ist jedoch weiterhin weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir M² – einen Meshed Transformer mit Gedächtnis für die Bildbeschreibung. Die Architektur verbessert sowohl den Bildcodierungs- als auch den Sprachgenerierungsprozess: Sie lernt eine mehrstufige Repräsentation der Beziehungen zwischen Bildregionen, wobei gelernte a priori-Wissensbestände integriert werden, und nutzt bei der Dekodierung eine gitterartige Verbindungsstruktur, um sowohl niedrige als auch hohe Merkmale effektiv auszunutzen. Experimentell untersuchen wir die Leistungsfähigkeit des M²-Transformers im Vergleich zu verschiedenen vollständig auf Aufmerksamkeit basierenden Modellen sowie zu rekurrenten Architekturen. Auf dem COCO-Datensatz erreicht unsere Methode auf dem „Karpathy“-Testsplit sowie auf dem Online-Testserver eine neue State-of-the-Art-Leistung sowohl in Einzelmodell- als auch in Ensemble-Konfigurationen. Zudem bewerten wir ihre Leistung bei der Beschreibung von Objekten, die im Trainingsdatensatz nicht vorkamen. Trainierte Modelle und der Quellcode zur Reproduktion der Experimente sind öffentlich verfügbar unter: https://github.com/aimagelab/meshed-memory-transformer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp