Effiziente Aufmerksamkeitsmechanismen für visuelle Dialoge, die alle Wechselwirkungen zwischen mehreren Eingaben verarbeiten können

Ein zentrales Anliegen in jüngsten Studien zu Aufgaben im Bereich Vision und Sprache ist die Entwicklung einer effektiven Aufmerksamkeitsmechanik zur Behandlung der Wechselwirkungen zwischen den beiden Modalitäten. Der Transformer wurde kürzlich erweitert und auf mehrere bi-modale Aufgaben angewandt, wobei vielversprechende Ergebnisse erzielt wurden. Für visuelle Dialogsysteme ist es nun erforderlich, Wechselwirkungen zwischen drei oder mehr Eingaben zu berücksichtigen, beispielsweise ein Bild, eine Frage und eine Dialoggeschichte oder sogar einzelne Komponenten des Dialogs. In diesem Paper präsentieren wir eine neuronale Architektur namens Light-weight Transformer for Many Inputs (LTMI), die effizient alle Wechselwirkungen zwischen mehreren solchen Eingaben im Kontext visueller Dialogsysteme bewältigen kann. Die Architektur weist eine Blockstruktur auf, die der des Transformers ähnelt, und verwendet denselben Ansatz zur Aufmerksamkeitsberechnung. Gleichzeitig verfügt sie über eine geringe Anzahl an Parametern, besitzt jedoch ausreichende Repräsentationskraft für den vorgesehenen Einsatz. Unter Annahme eines Standardsettings für visuelle Dialogsysteme verfügt eine Schicht, die auf dem vorgeschlagenen Aufmerksamkeitsblock basiert, über weniger als ein Zehntel der Parameter im Vergleich zu dessen Pendant, einer natürlichen Erweiterung des Transformers. Die experimentellen Ergebnisse auf den VisDial-Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes: Die beste NDCG-Score auf dem VisDial v1.0-Datensatz steigt mit einem einzelnen Modell von 57,59 auf 60,92, mit Ensembles von 64,47 auf 66,53 und sogar auf 74,88 bei zusätzlicher Feinabstimmung (fine-tuning). Die Implementierung des Modells steht unter https://github.com/davidnvq/visdial zur Verfügung.