MaMMUT: Eine einfache Architektur für das gemeinsame Lernen mehrdimensionaler Aufgaben

Die Entwicklung von Sprachmodellen hat sich von Encoder-Decoder-Architekturen hin zu reinen Decoder-Designs verschoben. Zudem stellen wir fest, dass die beiden am häufigsten verwendeten multimodalen Aufgaben, nämlich generative und kontrastive Aufgaben, schwer in einer einzigen Architektur zu integrieren sind und zudem für nachgeschaltete Aufgaben Anpassungen erfordern. Wir schlagen ein neuartiges Trainingsparadigma mit einem reinen Decoder-Modell für multimodale Aufgaben vor, das überraschend effektiv bei der gemeinsamen Lernung dieser unterschiedlichen visuell-sprachlichen Aufgaben ist. Dies erreichen wir mit einem einfachen Modell namens MaMMUT, das aus einem einzigen Bild-Encoder und einem Text-Decoder besteht und durch einen innovativen zweipassbasierten Ansatz am Text-Decoder sowohl kontrastives als auch generatives Lernen unterstützt. Wir zeigen, dass die gemeinsame Lernung dieser vielfältigen Ziele einfach, effektiv ist und die Gewichtsteilung des Modells über diese Aufgaben hinweg maximiert. Darüber hinaus ermöglicht die gleiche Architektur nahtlose Erweiterungen auf offene-Vokabular-Objekterkennung und Video-Sprache-Aufgaben. Das Modell bewältigt eine breite Palette an Aufgaben, bleibt dabei jedoch in seiner Kapazität bescheiden. Unser Modell erreicht den Stand der Technik bei Aufgaben zur Bild-Text- und Text-Bild-Abfrage, sowie bei der Video-Fragenbeantwortung und der offenen-Vokabular-Erkennung – und übertrifft dabei deutlich größere und intensiver trainierte Grundmodelle. Es erzielt zudem äußerst wettbewerbsfähige Ergebnisse bei VQA und Video-Captioning, insbesondere unter Berücksichtigung seiner geringen Kapazität. Ablationsstudien bestätigen die Flexibilität und Vorteile unseres Ansatzes.