Aufnahme von Anweisungs-Prompts in einen einheitlichen generativen Rahmen zur gemeinsamen Mehrfach-Intentionserkennung und Slot-Füllung

Die gemeinsame mehrfache Intentionserkennung (Intent Detection, ID) und Slot-Füllung (Slot Filling, SF) stellt eine bedeutende Herausforderung im Bereich des gesprochenen Sprachverstehens dar. Da die Slots in einer Äußerung möglicherweise mehreren Intentionen zugeordnet sind, konzentrieren sich die meisten bestehenden Ansätze darauf, spezifische Aufgabenkomponenten einzusetzen, um die Beziehungen zwischen Intentionen und Slots zu erfassen. Diese maßgeschneiderten Netzwerke begrenzen die Modelle darin, Gemeinsamkeiten zwischen Aufgaben zu modellieren und sich auf breitere Anwendungen zu generalisieren. Um dieses Problem anzugehen, schlagen wir einen einheitlichen generativen Rahmen (Unified Generative framework, UGEN) vor, der auf einer promptbasierten Paradigma beruht, und formulieren die Aufgabe als eine Frage-Antwort-Aufgabe. Konkret entwerfen wir fünf Typen von Vorlagen als instruktive Prompts, wobei jede Vorlage eine Frage enthält, die als Treiber fungiert, um UGEN das Verständnis der zugrunde liegenden Paradigmen beizubringen, sowie Optionen, die die möglichen Intentionen oder Slots auflisten, um den Suchraum für die Antwort zu verkleinern, und den Kontext, der die ursprüngliche Äußerung darstellt. Durch diese instruktiven Prompts wird UGEN angeleitet, Intentionen, Slots und ihre impliziten Korrelationen zu verstehen. Auf zwei gängigen Benchmark-Datensätzen für mehrfache Intentionen zeigen experimentelle Ergebnisse, dass UGEN sowohl bei vollständigen Datensätzen neue SOTA-Leistungen erzielt als auch bei 5-Shot-(28,1%) und 10-Shot-(23%)-Szenarien deutlich über den Baselines abschneidet, was belegt, dass UGEN robust und effektiv ist.