HyperAIHyperAI
vor 17 Tagen

Kanal-Austausch-Netzwerke für multimodale und multitask-basierte dichte Bildvorhersagen

Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao
Kanal-Austausch-Netzwerke für multimodale und multitask-basierte dichte Bildvorhersagen
Abstract

Multimodale Fusion und multitask Learning sind zwei zentrale Themen im Bereich des maschinellen Lernens. Trotz der vielversprechenden Fortschritte sind bestehende Ansätze für beide Probleme weiterhin anfällig für dasselbe zentrale Hindernis: Es bleibt eine Herausforderung, die gemeinsamen Informationen über verschiedene Modalitäten (bzw. Aufgaben) zu integrieren, während gleichzeitig die spezifischen Muster jeder einzelnen Modality (bzw. Aufgabe) erhalten bleiben. Darüber hinaus, obwohl multimodale Fusion und multitask Learning in der Praxis eng miteinander verknüpft sind, wurden sie bisher selten innerhalb eines gemeinsamen methodologischen Rahmens untersucht. In diesem Artikel stellen wir das Channel-Exchanging-Network (CEN) vor, ein selbstadaptives, parameterfreies Verfahren, das insbesondere für multimodale und multitask-basierte dichte Bildvorhersagen geeignet ist. Im Kern adaptiv tauscht CEN Kanäle zwischen Subnetzen verschiedener Modalitäten aus. Genauer gesagt wird dieser Kanal-Tauschprozess selbstgesteuert durch die individuelle Kanalbedeutung geleitet, die während des Trainings anhand der Größe des Batch-Normalization (BN)-Skalierungsfaktors gemessen wird. Für die Anwendung in der dichten Bildvorhersage wird die Wirksamkeit von CEN anhand vier unterschiedlicher Szenarien evaluiert: multimodale Fusion, zyklische multimodale Fusion, multitask Learning sowie multimodales multitask Learning. Umfangreiche Experimente zur semantischen Segmentierung anhand RGB-D-Daten und zur Bildübersetzung unter Verwendung mehrerer Domänen bestätigen die Überlegenheit von CEN gegenüber aktuellen State-of-the-Art-Methoden. Ausführliche Ablationsstudien demonstrieren zudem die Vorteile jedes einzelnen vorgeschlagenen Bausteins. Der Quellcode ist unter https://github.com/yikaiw/CEN verfügbar.

Kanal-Austausch-Netzwerke für multimodale und multitask-basierte dichte Bildvorhersagen | Neueste Forschungsarbeiten | HyperAI