Aufmerksamkeitsbasierte multimodale Bildabgleichung

Wir schlagen einen aufmerksamkeitsbasierten Ansatz für die multimodale Bildpatch-Zuordnung vor, der einen Transformer-Encoder verwendet, der sich den Merkmalskarten eines mehrskaligen Siamese-CNN widmet. Unser Encoder erweist sich als effizient bei der Aggregation von mehrskaligen Bild-Embeddings und betont dabei modalaufgabenunabhängige Erscheinungsmerkmale des Bildes. Darüber hinaus führen wir eine Aufmerksamkeits-Residual-Architektur ein, die eine Residualverbindung um den Encoder herum nutzt. Dieser zusätzliche Lernsignal erleichtert das von Grund auf durchgeführte End-to-End-Training. Experimentell konnte unser Ansatz neue Stand-of-the-Art-Genauigkeiten sowohl bei multimodalen als auch bei einmodalen Benchmarks erzielen, was seine allgemeine Anwendbarkeit verdeutlicht. Nach bestem Wissen ist dies die erste erfolgreiche Implementierung der Transformer-Encoder-Architektur für die multimodale Bildpatch-Zuordnungsaufgabe.