Command Palette
Search for a command to run...
Verbesserung des multimodalen Lernens mit einmodalen Lehrern
Verbesserung des multimodalen Lernens mit einmodalen Lehrern
Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao
Zusammenfassung
Die Entwicklung multi-modaler Darstellungen ist ein entscheidender Schritt hin zu realen robotischen Anwendungen, und es wurden zahlreiche multi-modale Fusionsmodelle hierfür entwickelt. Allerdings stellen wir fest, dass bestehende Modelle, deren Ziele hauptsächlich auf gemeinsamer Trainingsstrategie basieren, häufig unter einer suboptimalen Lernleistung jeder einzelnen Modality leiden. Wir bezeichnen dieses Phänomen als „Modality Failure“ und vermuten, dass die Ungleichgewichtigkeit der Modalitäten sowie der implizite Bias der gängigen Ziele in Fusionsmethoden die ausreichende Merkmalslernleistung der einzelnen Encoder behindern. Um dieses Problem anzugehen, schlagen wir eine neue Methode für multi-modales Lernen vor: Uni-Modal Teacher, die das Fusionsziel mit uni-modaler Distillation kombiniert, um das Problem der Modality Failure zu bewältigen. Wir zeigen, dass unsere Methode nicht nur die Darstellung jeder einzelnen Modality erheblich verbessert, sondern auch die Gesamtleistung bei multi-modalen Aufgaben steigert. Unser Ansatz lässt sich effektiv auf die meisten bestehenden multi-modalen Fusionsansätze verallgemeinern. Wir erzielen eine Verbesserung um mehr als 3 % bei der audio-visuellen Klassifikationsaufgabe VGGSound sowie eine Steigerung der Leistung bei der RGB-D-Bildsegmentierungsaufgabe NYU Depth V2.