HyperAI

MIntRec2.0 Multimodaler Dialogdatensatz Zur Absichtserkennung

Datum

vor einem Jahr

Organisation

Tsinghua-Universität

Veröffentlichungs-URL

github.com

Download-Hilfe

MIntRec2.0 ist ein groß angelegter multimodaler Mehrparteien-Benchmark-Datensatz, der von der Tsinghua-Universität und anderen vorgeschlagen wurde und speziell dazu verwendet wird, die Absicht in Gesprächen zu erkennen und nicht beabsichtigte Inhalte zu erkennen. Im Vergleich zum vorherigen MIntRec ist das Datenvolumen von MIntRec2.0 auf 15.000 gestiegen, deckt 30 Absichtskategorien ab und enthält ungefähr 9.300 In-Intent- und 5.700 Out-of-Intent-annotierte Sätze, die mehrere Modalitäten wie Text, Video und Audio umfassen.

Der Datensatz besteht aus 1.245 Dialogen mit jeweils durchschnittlich 12 Sätzen. Jeder Satz ist mit der Absicht gekennzeichnet und an jedem Dialog sind mindestens zwei Sprecher beteiligt, wobei alle Sätze mit der Identität des Sprechers gekennzeichnet sind. Um den Anforderungen von Open-World-Szenarien gerecht zu werden, führt MIntRec2.0 außerdem OOS-Tags ein, um Sätze zu identifizieren, die nicht zu bekannten Absichtskategorien gehören, um die Robustheit des Systems zu verbessern. Dieser Datensatz soll die Forschung im Zusammenhang mit dem multimodalen Verständnis von Absichten fördern und eine solide Grundlage für eine natürlichere Mensch-Computer-Interaktion und die Entwicklung künstlicher Intelligenz (AGI) schaffen.