HyperAIHyperAI
vor 17 Tagen

X-Linear Attention Networks für Image Captioning

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei
X-Linear Attention Networks für Image Captioning
Abstract

In jüngster Zeit hat die feinkörnige visuelle Erkennung und die visuelle Fragebeantwortung durch Bilinear Pooling Fortschritte gemacht, das effektiv zweite Ordnung Wechselwirkungen zwischen multimodalen Eingaben modelliert. Dennoch gibt es bisher keine Belege dafür, dass solche Wechselwirkungen gleichzeitig mit einem Aufmerksamkeitsmechanismus für die Bildbeschreibung genutzt werden können. In diesem Paper stellen wir einen einheitlichen Aufmerksamkeitsblock vor – den X-Linear-Aufmerksamkeitsblock –, der das Bilinear Pooling vollständig nutzt, um gezielt visuelle Informationen auszunutzen oder multimodale Schlussfolgerungen zu ziehen. Technisch nutzt der X-Linear-Aufmerksamkeitsblock gleichzeitig sowohl die räumlichen als auch die kanalweisen bilinearen Aufmerksamkeitsverteilungen, um zweite Ordnung Wechselwirkungen zwischen einzelnen oder multimodalen Eingabemerkmale zu erfassen. Höhere und sogar unendliche Ordnung Merkmalswechselwirkungen lassen sich durch Stapeln mehrerer X-Linear-Aufmerksamkeitsblöcke und durch die Integration der Exponential Linear Unit (ELU) ohne zusätzliche Parameter effizient modellieren. Darüber hinaus präsentieren wir X-Linear-Aufmerksamkeitsnetzwerke (kurz X-LAN), die den X-Linear-Aufmerksamkeitsblock(n) neuartig in den Bildencoder und den Satzdecoder eines Bildbeschreibungsmodells integrieren, um höhere Ordnung intra- und intermodale Wechselwirkungen zu nutzen. Experimente auf der COCO-Benchmark zeigen, dass unser X-LAN die bisher beste veröffentlichte CIDEr-Leistung von 132,0 % auf dem COCO-Karpathy-Testsplit erreicht. Wenn man den Transformer zusätzlich mit X-Linear-Aufmerksamkeitsblöcken ausstattet, steigt die CIDEr-Wert sogar auf 132,8 %. Der Quellcode ist unter \url{https://github.com/Panda-Peter/image-captioning} verfügbar.