MIntRec: Ein neuer Datensatz für die multimodale Absichtserkennung

Die Mehrmodalen Absichtserkennung ist eine bedeutende Aufgabe zur Verständnis der menschlichen Sprache in realen mehrmodalen Szenarien. Die meisten existierenden Methoden zur Absichtserkennung haben Einschränkungen bei der Nutzung von mehrmodaler Information aufgrund der Beschränkungen von Benchmark-Datensätzen, die nur textbasierte Informationen enthalten. In dieser Arbeit wird ein neuer Datensatz für die mehrmodale Absichtserkennung (MIntRec) vorgestellt, um dieses Problem zu lösen. Basierend auf den Daten, die aus der Fernsehserie "Superstore" gesammelt wurden, werden grobkörnige und feinkörnige Absichtstaxonomien formuliert. Der Datensatz besteht aus 2.224 hochwertigen Stichproben mit textueller, video- und audiomodaler Information und enthält mehrmodale Annotationen in zwanzig Absichtskategorien. Darüber hinaus stellen wir annotierte Begrenzungsrahmen der Sprechenden in jedem Videoabschnitt zur Verfügung und erreichen einen automatischen Prozess für die Sprecherannotierung. MIntRec ist hilfreich für Forscher, um Beziehungen zwischen verschiedenen Modalitäten zu analysieren und die Fähigkeit zur Absichtserkennung zu verbessern. Wir extrahieren Merkmale aus jeder Modality und modellieren kreuzmodale Interaktionen durch Anpassung dreier leistungsfähiger Mehrmodalitäts-Fusionsmethoden, um Baselines aufzubauen. Umfangreiche Experimente zeigen, dass die Nutzung nichtverbaler Modalitäten im Vergleich zur rein textbasierten Modality erhebliche Verbesserungen bringt, was die Effektivität der Nutzung von mehrmodaler Information für die Absichtserkennung unterstreicht. Der Abstand zwischen den besten Methoden und den Menschen zeigt die Herausforderung und Bedeutung dieser Aufgabe für die Gemeinschaft. Der vollständige Datensatz und die Codes sind unter https://github.com/thuiar/MIntRec verfügbar.请注意,虽然您的要求中提到了“法语读者”,但您需要的是德语翻译。因此,我已根据您的标准进行了德语翻译。如果您有任何其他需求,请随时告知。