Bilineare Aufmerksamkeitsnetzwerke

Aufmerksamkeitsnetzwerke im multimodalen Lernen bieten eine effiziente Möglichkeit, gegebene visuelle Informationen selektiv zu nutzen. Allerdings ist der Rechenaufwand zur Lernung von Aufmerksamkeitsverteilungen für jedes Paar multimodaler Eingangskanäle unerschwinglich hoch. Um dieses Problem zu lösen, baut Co-Aufmerksamkeit zwei getrennte Aufmerksamkeitsverteilungen für jede Modalität auf, wobei die Interaktion zwischen multimodalen Eingaben vernachlässigt wird. In dieser Arbeit schlagen wir bilineare Aufmerksamkeitsnetzwerke (BAN) vor, die bilineare Aufmerksamkeitsverteilungen finden, um die gegebenen visuell-sprachlichen Informationen nahtlos zu nutzen. BAN berücksichtigt bilineare Interaktionen zwischen zwei Gruppen von Eingangskanälen, während Low-Rank-Bilineare Pooling die gemeinsamen Darstellungen für jedes Kanalpaar extrahiert. Des Weiteren schlagen wir eine Variante von multimodalen Residual-Netzwerken vor, um die acht Aufmerksamkeitskarten des BAN effizient auszuwerten. Wir bewerten unser Modell quantitativ und qualitativ anhand der Visual Question Answering (VQA 2.0) und der Flickr30k Entities-Datensätze und zeigen, dass BAN deutlich besser als frühere Methoden abschneidet und neue Standards auf beiden Datensätzen erreicht.