HyperAI

Modalität bezieht sich auf die spezifische Art und Weise, wie Menschen Informationen erhalten. Da Multimediadaten häufig als Medium zur Übertragung mehrerer Arten von Informationen dienen (ein Video beispielsweise überträgt häufig Text-, Bild- und Hörinformationen gleichzeitig), hat sich multimodales Lernen nach und nach zum wichtigsten Mittel zur Analyse und zum Verständnis multimedialer Inhalte entwickelt.

Multimodales Lernen umfasst im Wesentlichen folgende Forschungsrichtungen:

Multimodales Darstellungslernen: untersucht hauptsächlich, wie die in mehreren modalen Daten enthaltenen semantischen Informationen in realwertige Vektoren digitalisiert werden können.
Intermodale Abbildung: untersucht hauptsächlich, wie die Informationen in Daten einer bestimmten Modalität auf eine andere Modalität abgebildet werden können.
Ausrichtung: Befasst sich hauptsächlich mit der Identifizierung der Entsprechung zwischen Komponenten und Elementen zwischen verschiedenen Modi.
Fusion: Befasst sich hauptsächlich mit der Frage, wie Modelle und Funktionen zwischen verschiedenen Modalitäten integriert werden können.
Kollaboratives Lernen: untersucht hauptsächlich, wie in informationsreichen Modalitäten erworbenes Wissen auf informationsarme Modalitäten übertragen werden kann, sodass sich das Lernen der einzelnen Modalitäten gegenseitig unterstützen kann. Typische Methoden sind multimodales Zero-Shot-Lernen, Domänenanpassung usw.

Verweise

【1】AI-Review-Kolumne – Überprüfung des Forschungsfortschritts im Bereich multimodales Lernen (Zhihu)