HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung des multimodalen Lernens mit einmodalen Lehrern

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Zusammenfassung

Die Entwicklung multi-modaler Darstellungen ist ein entscheidender Schritt hin zu realen robotischen Anwendungen, und es wurden zahlreiche multi-modale Fusionsmodelle hierfür entwickelt. Allerdings stellen wir fest, dass bestehende Modelle, deren Ziele hauptsächlich auf gemeinsamer Trainingsstrategie basieren, häufig unter einer suboptimalen Lernleistung jeder einzelnen Modality leiden. Wir bezeichnen dieses Phänomen als „Modality Failure“ und vermuten, dass die Ungleichgewichtigkeit der Modalitäten sowie der implizite Bias der gängigen Ziele in Fusionsmethoden die ausreichende Merkmalslernleistung der einzelnen Encoder behindern. Um dieses Problem anzugehen, schlagen wir eine neue Methode für multi-modales Lernen vor: Uni-Modal Teacher, die das Fusionsziel mit uni-modaler Distillation kombiniert, um das Problem der Modality Failure zu bewältigen. Wir zeigen, dass unsere Methode nicht nur die Darstellung jeder einzelnen Modality erheblich verbessert, sondern auch die Gesamtleistung bei multi-modalen Aufgaben steigert. Unser Ansatz lässt sich effektiv auf die meisten bestehenden multi-modalen Fusionsansätze verallgemeinern. Wir erzielen eine Verbesserung um mehr als 3 % bei der audio-visuellen Klassifikationsaufgabe VGGSound sowie eine Steigerung der Leistung bei der RGB-D-Bildsegmentierungsaufgabe NYU Depth V2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung des multimodalen Lernens mit einmodalen Lehrern | Paper | HyperAI