HyperAIHyperAI
vor 11 Tagen

Multimodale Token-Fusion für Vision Transformers

Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang
Multimodale Token-Fusion für Vision Transformers
Abstract

Viele Adaptationen von Transformers sind entstanden, um einmodale Vision-Aufgaben anzugehen, bei denen Self-Attention-Module gestapelt werden, um Eingabedaten wie Bilder zu verarbeiten. Intuitiv könnte die Zufuhr mehrerer Modality-Daten an Vision-Transformers die Leistung steigern; gleichzeitig könnten jedoch die innermodalen Aufmerksamkeitsgewichte verflacht werden, was die endgültige Leistung beeinträchtigen könnte. In diesem Paper stellen wir eine multimodale Token-Fusionsmethode (TokenFusion) vor, die speziell für transformerbasierte Vision-Aufgaben konzipiert ist. Um mehrere Modi effektiv zu fusionieren, detektiert TokenFusion dynamisch informativlose Tokens und ersetzt diese durch projizierte und aggregierte intermodale Merkmale. Zudem wird eine residual Positionsalignment verwendet, um eine explizite Nutzung der intermodalen Alignments nach der Fusion zu ermöglichen. Die Architektur von TokenFusion ermöglicht es dem Transformer, Korrelationen zwischen multimodalen Merkmalen zu lernen, während die ursprüngliche einmodale Transformer-Architektur weitgehend unverändert bleibt. Umfangreiche Experimente wurden auf einer Vielzahl homogener und heterogener Modi durchgeführt und zeigen, dass TokenFusion state-of-the-art Methoden in drei typischen Vision-Aufgaben übertrifft: multimodale Bild-zu-Bild-Übersetzung, RGB-Tiefen-Semantiksegmentierung sowie 3D-Objekterkennung mit Punktwolken und Bildern. Der Quellcode ist unter https://github.com/yikaiw/TokenFusion verfügbar.

Multimodale Token-Fusion für Vision Transformers | Neueste Forschungsarbeiten | HyperAI