HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeitsbasierte multimodale Bildabgleichung

Aviad Moreshet Yosi Keller

Zusammenfassung

Wir schlagen einen aufmerksamkeitsbasierten Ansatz für die multimodale Bildpatch-Zuordnung vor, der einen Transformer-Encoder verwendet, der sich den Merkmalskarten eines mehrskaligen Siamese-CNN widmet. Unser Encoder erweist sich als effizient bei der Aggregation von mehrskaligen Bild-Embeddings und betont dabei modalaufgabenunabhängige Erscheinungsmerkmale des Bildes. Darüber hinaus führen wir eine Aufmerksamkeits-Residual-Architektur ein, die eine Residualverbindung um den Encoder herum nutzt. Dieser zusätzliche Lernsignal erleichtert das von Grund auf durchgeführte End-to-End-Training. Experimentell konnte unser Ansatz neue Stand-of-the-Art-Genauigkeiten sowohl bei multimodalen als auch bei einmodalen Benchmarks erzielen, was seine allgemeine Anwendbarkeit verdeutlicht. Nach bestem Wissen ist dies die erste erfolgreiche Implementierung der Transformer-Encoder-Architektur für die multimodale Bildpatch-Zuordnungsaufgabe.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp