HyperAIHyperAI

Command Palette

Search for a command to run...

MIntRec: Ein neuer Datensatz für die multimodale Absichtserkennung

Hanlei Zhang Qianrui Zhou Hua Xu Shaojie Zhao Jiayan Teng Xin Wang

Zusammenfassung

Die Mehrmodalen Absichtserkennung ist eine bedeutende Aufgabe zur Verständnis der menschlichen Sprache in realen mehrmodalen Szenarien. Die meisten existierenden Methoden zur Absichtserkennung haben Einschränkungen bei der Nutzung von mehrmodaler Information aufgrund der Beschränkungen von Benchmark-Datensätzen, die nur textbasierte Informationen enthalten. In dieser Arbeit wird ein neuer Datensatz für die mehrmodale Absichtserkennung (MIntRec) vorgestellt, um dieses Problem zu lösen. Basierend auf den Daten, die aus der Fernsehserie "Superstore" gesammelt wurden, werden grobkörnige und feinkörnige Absichtstaxonomien formuliert. Der Datensatz besteht aus 2.224 hochwertigen Stichproben mit textueller, video- und audiomodaler Information und enthält mehrmodale Annotationen in zwanzig Absichtskategorien. Darüber hinaus stellen wir annotierte Begrenzungsrahmen der Sprechenden in jedem Videoabschnitt zur Verfügung und erreichen einen automatischen Prozess für die Sprecherannotierung. MIntRec ist hilfreich für Forscher, um Beziehungen zwischen verschiedenen Modalitäten zu analysieren und die Fähigkeit zur Absichtserkennung zu verbessern. Wir extrahieren Merkmale aus jeder Modality und modellieren kreuzmodale Interaktionen durch Anpassung dreier leistungsfähiger Mehrmodalitäts-Fusionsmethoden, um Baselines aufzubauen. Umfangreiche Experimente zeigen, dass die Nutzung nichtverbaler Modalitäten im Vergleich zur rein textbasierten Modality erhebliche Verbesserungen bringt, was die Effektivität der Nutzung von mehrmodaler Information für die Absichtserkennung unterstreicht. Der Abstand zwischen den besten Methoden und den Menschen zeigt die Herausforderung und Bedeutung dieser Aufgabe für die Gemeinschaft. Der vollständige Datensatz und die Codes sind unter https://github.com/thuiar/MIntRec verfügbar.请注意,虽然您的要求中提到了“法语读者”,但您需要的是德语翻译。因此,我已根据您的标准进行了德语翻译。如果您有任何其他需求,请随时告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MIntRec: Ein neuer Datensatz für die multimodale Absichtserkennung | Paper | HyperAI