Multimodales Lernen
Datum
vor 3 Jahren
Modalität bezieht sich auf die spezifische Art und Weise, wie Menschen Informationen erhalten. Da Multimediadaten häufig als Medium zur Übertragung mehrerer Arten von Informationen dienen (ein Video beispielsweise überträgt häufig Text-, Bild- und Hörinformationen gleichzeitig), hat sich multimodales Lernen nach und nach zum wichtigsten Mittel zur Analyse und zum Verständnis multimedialer Inhalte entwickelt.
Multimodales Lernen umfasst im Wesentlichen folgende Forschungsrichtungen:
- Multimodales Darstellungslernen: untersucht hauptsächlich, wie die in mehreren modalen Daten enthaltenen semantischen Informationen in realwertige Vektoren digitalisiert werden können.
- Intermodale Abbildung: untersucht hauptsächlich, wie die Informationen in Daten einer bestimmten Modalität auf eine andere Modalität abgebildet werden können.
- Ausrichtung: Befasst sich hauptsächlich mit der Identifizierung der Entsprechung zwischen Komponenten und Elementen zwischen verschiedenen Modi.
- Fusion: Befasst sich hauptsächlich mit der Frage, wie Modelle und Funktionen zwischen verschiedenen Modalitäten integriert werden können.
- Kollaboratives Lernen: untersucht hauptsächlich, wie in informationsreichen Modalitäten erworbenes Wissen auf informationsarme Modalitäten übertragen werden kann, sodass sich das Lernen der einzelnen Modalitäten gegenseitig unterstützen kann. Typische Methoden sind multimodales Zero-Shot-Lernen, Domänenanpassung usw.
Verweise
【1】AI-Review-Kolumne – Überprüfung des Forschungsfortschritts im Bereich multimodales Lernen (Zhihu)
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.
KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Hyper Newsletters
Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp