vor 6 Monaten

Zusammenfassung

Cross-modal-Transformer haben bei verschiedenen Bildverarbeitungsaufgaben durch eine effektive Integration unterschiedlicher Modalitäten ihre Überlegenheit unter Beweis gestellt. In diesem Artikel kritisieren wir zunächst vorherige Token-Austauschmethoden, die weniger informative Tokens durch intermodale Merkmale ersetzen, und zeigen, dass solche Austausch-basierten Ansätze die Leistungsfähigkeit von Cross-Attention-Mechanismen unterschreiten. Gleichzeitig beschränkt die unvermeidlich hohe Rechenkomplexität letzterer die Anwendung bei längeren Sequenzen. Um diese rechnerischen Herausforderungen zu bewältigen, stellen wir GeminiFusion vor – einen pixelbasierten Fusionansatz, der auf ausgerichteten, cross-modalen Darstellungen aufbaut. GeminiFusion verbindet elegant intra-modale und inter-modale Aufmerksamkeit und integriert dynamisch komplementäre Informationen zwischen Modalitäten. Wir nutzen einen schichtadaptiven Rauschterm, um deren Wechselwirkung auf pro-schichtiger Basis adaptiv zu steuern, wodurch ein harmonisierter Fusionsprozess erreicht wird. Besonders hervorzuheben ist, dass GeminiFusion eine lineare Komplexität bezüglich der Anzahl der Eingabetokens beibehält und somit die Effizienz eines multimodalen Rahmens gewährleistet, die mit der von unimodalen Netzwerken vergleichbar ist. Umfassende Evaluationen an mehreren multimodalen Aufgaben – darunter Bild-zu-Bild-Übersetzung, 3D-Objekterkennung und beliebige Modalitäten umfassende semantische Segmentierung (z. B. RGB, Tiefeninformation, LiDAR, Ereignisdaten) – belegen die herausragende Leistungsfähigkeit von GeminiFusion gegenüber state-of-the-art-Verfahren. Der PyTorch-Code ist unter https://github.com/JiaDingCN/GeminiFusion verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Multimodale Darstellung

Semantische Segmentierung

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Multimodale Darstellung

Semantische Segmentierung

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GeminiFusion: Effiziente pixelweise multimodale Fusion für Vision Transformers

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GeminiFusion: Effiziente pixelweise multimodale Fusion für Vision Transformers

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GeminiFusion: Effiziente pixelweise multimodale Fusion für Vision Transformers

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters