HyperAIHyperAI

Command Palette

Search for a command to run...

BLOCK: Bilineare Superdiagonale Fusion für Visuelle Fragebeantwortung und Visuelle Beziehungsidentifikation

Cadene

Zusammenfassung

Das Lernen multimodaler Repräsentationen gewinnt innerhalb der Deep-Learning-Gemeinschaft zunehmend an Bedeutung. Obwohl bilineare Modelle ein interessantes Framework bieten, um subtile Kombinationen von Modalitäten zu finden, wächst ihre Anzahl von Parametern quadratisch mit den Eingabedimensionen, was ihre praktische Implementierung in klassischen Deep-Learning-Pipelines herausfordernd macht. In dieser Arbeit stellen wir BLOCK vor, eine neue multimodale Fusion basierend auf der Block-Superdiagonalmatrixzerlegung (block-superdiagonal tensor decomposition). BLOCK nutzt das Konzept der Block-Term-Ränge, das sowohl den Rang als auch die Modus-Ränge für Tensoren verallgemeinert, die bereits für multimodale Fusion verwendet werden. Dies ermöglicht es, neue Methoden zur Optimierung des Spannungsfeldes zwischen Ausdrucksstärke und Komplexität des Fusionsmodells zu definieren und sehr feine Interaktionen zwischen Modalitäten darzustellen, während gleichzeitig leistungsstarke monomodale Repräsentationen beibehalten werden. Wir demonstrieren die praktische Relevanz unseres Fusionsmodells durch die Verwendung von BLOCK für zwei anspruchsvolle Aufgaben: Visuelle Fragebeantwortung (Visual Question Answering, VQA) und Erkennung visueller Beziehungen (Visual Relationship Detection, VRD), bei denen wir end-to-end lernfähige Architekturen zur Darstellung relevanter Interaktionen zwischen Modalitäten entwickeln. Durch umfangreiche Experimente zeigen wir, dass BLOCK sich im Vergleich zu den neuesten multimodalen Fusionsmodellen sowohl für VQA- als auch für VRD-Aufgaben vorteilhaft auszeichnet. Unser Code ist unter https://github.com/Cadene/block.bootstrap.pytorch verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp