BLOCK: Bilineare Superdiagonale Fusion für Visuelle Fragebeantwortung und Visuelle Beziehungsidentifikation

Das Lernen multimodaler Repräsentationen gewinnt innerhalb der Deep-Learning-Gemeinschaft zunehmend an Bedeutung. Obwohl bilineare Modelle ein interessantes Framework bieten, um subtile Kombinationen von Modalitäten zu finden, wächst ihre Anzahl von Parametern quadratisch mit den Eingabedimensionen, was ihre praktische Implementierung in klassischen Deep-Learning-Pipelines herausfordernd macht. In dieser Arbeit stellen wir BLOCK vor, eine neue multimodale Fusion basierend auf der Block-Superdiagonalmatrixzerlegung (block-superdiagonal tensor decomposition). BLOCK nutzt das Konzept der Block-Term-Ränge, das sowohl den Rang als auch die Modus-Ränge für Tensoren verallgemeinert, die bereits für multimodale Fusion verwendet werden. Dies ermöglicht es, neue Methoden zur Optimierung des Spannungsfeldes zwischen Ausdrucksstärke und Komplexität des Fusionsmodells zu definieren und sehr feine Interaktionen zwischen Modalitäten darzustellen, während gleichzeitig leistungsstarke monomodale Repräsentationen beibehalten werden. Wir demonstrieren die praktische Relevanz unseres Fusionsmodells durch die Verwendung von BLOCK für zwei anspruchsvolle Aufgaben: Visuelle Fragebeantwortung (Visual Question Answering, VQA) und Erkennung visueller Beziehungen (Visual Relationship Detection, VRD), bei denen wir end-to-end lernfähige Architekturen zur Darstellung relevanter Interaktionen zwischen Modalitäten entwickeln. Durch umfangreiche Experimente zeigen wir, dass BLOCK sich im Vergleich zu den neuesten multimodalen Fusionsmodellen sowohl für VQA- als auch für VRD-Aufgaben vorteilhaft auszeichnet. Unser Code ist unter https://github.com/Cadene/block.bootstrap.pytorch verfügbar.