HyperAIHyperAI
vor 2 Monaten

Token-Level Kontrastives Lernen mit modalitätsbewusstem Prompting für multimodale Intent-Erkennung

Qianrui Zhou; Hua Xu; Hao Li; Hanlei Zhang; Xiaohan Zhang; Yifan Wang; Kai Gao
Token-Level Kontrastives Lernen mit modalitätsbewusstem Prompting für multimodale Intent-Erkennung
Abstract

Die multimodale Absichtserkennung strebt danach, verschiedene Modalitäten wie Ausdrücke, Körpersprache und Sprechton zu nutzen, um die Absichten des Benutzers zu verstehen. Dies stellt eine wichtige Aufgabe dar, um menschliche Sprache und Verhaltensweisen in realen multimodalen Szenarien zu erfassen. Dennoch ignorieren die meisten bestehenden Methoden potenzielle Korrelationen zwischen verschiedenen Modalitäten und haben Einschränkungen bei der effektiven Lernung semantischer Merkmale aus nichtverbaler Kommunikation. In dieser Arbeit stellen wir eine tokenbasierte kontrastive Lernmethode mit modalausgerichteter Prompting (TCL-MAP) vor, um diese Herausforderungen zu bewältigen. Um eine optimale multimodale semantische Umgebung für den Textmodus herzustellen, entwickeln wir ein modalausgerichtetes Prompting-Modul (MAP), das Merkmale aus Text-, Video- und Audiomodalitäten durch similaritätsbasierte Modalausrichtung und einen cross-modalen Aufmerksamheitsmechanismus effektiv ausrichtet und fusioniert. Basierend auf dem modalausgerichteten Prompt und den wahren Labels erstellt der vorgeschlagene tokenbasierte kontrastive Lernrahmen (TCL) erweiterte Stichproben und wendet den NT-Xent-Verlust auf das Label-Token an. Insbesondere nutzt TCL die optimalen textuellen semantischen Erkenntnisse, die aus Absichtslabels abgeleitet werden, um die Lernprozesse anderer Modalitäten wiederum zu leiten. Ausführliche Experimente zeigen, dass unsere Methode im Vergleich zu den besten bisher bekannten Methoden bemerkenswerte Verbesserungen erzielt. Zudem belegen Ablationsanalysen die Überlegenheit des modalausgerichteten Prompts gegenüber manuell gestalteten Prompts, was für das multimodale Prompt-Lernen von großer Bedeutung ist. Der Quellcode wird unter https://github.com/thuiar/TCL-MAP veröffentlicht.

Token-Level Kontrastives Lernen mit modalitätsbewusstem Prompting für multimodale Intent-Erkennung | Neueste Forschungsarbeiten | HyperAI