vor 8 Monaten

Zusammenfassung

Die Entwicklung multi-modaler Darstellungen ist ein entscheidender Schritt hin zu realen robotischen Anwendungen, und es wurden zahlreiche multi-modale Fusionsmodelle hierfür entwickelt. Allerdings stellen wir fest, dass bestehende Modelle, deren Ziele hauptsächlich auf gemeinsamer Trainingsstrategie basieren, häufig unter einer suboptimalen Lernleistung jeder einzelnen Modality leiden. Wir bezeichnen dieses Phänomen als „Modality Failure“ und vermuten, dass die Ungleichgewichtigkeit der Modalitäten sowie der implizite Bias der gängigen Ziele in Fusionsmethoden die ausreichende Merkmalslernleistung der einzelnen Encoder behindern. Um dieses Problem anzugehen, schlagen wir eine neue Methode für multi-modales Lernen vor: Uni-Modal Teacher, die das Fusionsziel mit uni-modaler Distillation kombiniert, um das Problem der Modality Failure zu bewältigen. Wir zeigen, dass unsere Methode nicht nur die Darstellung jeder einzelnen Modality erheblich verbessert, sondern auch die Gesamtleistung bei multi-modalen Aufgaben steigert. Unser Ansatz lässt sich effektiv auf die meisten bestehenden multi-modalen Fusionsansätze verallgemeinern. Wir erzielen eine Verbesserung um mehr als 3 % bei der audio-visuellen Klassifikationsaufgabe VGGSound sowie eine Steigerung der Leistung bei der RGB-D-Bildsegmentierungsaufgabe NYU Depth V2.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Computer Vision

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Computer Vision

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Verbesserung des multimodalen Lernens mit einmodalen Lehrern | Paper | HyperAI

Command Palette

Verbesserung des multimodalen Lernens mit einmodalen Lehrern

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserung des multimodalen Lernens mit einmodalen Lehrern

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserung des multimodalen Lernens mit einmodalen Lehrern

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters