MIDAS: Multi-level Intent, Domain, and Slot Knowledge Distillation for Multi-turn NLU

Obwohl große Sprachmodelle (Large Language Models, LLMs) kohärente Texte generieren können, stoßen sie häufig auf Schwierigkeiten, den Nutzerintention hinter Anfragen zu erkennen. Im Gegensatz dazu interpretieren Natürlichsprachverstehens-Modelle (Natural Language Understanding, NLU) den Zweck und die wesentlichen Informationen der Nutzereingaben für reaktive Interaktionen. Bisherige NLU-Modelle ordnen Äußerungen typischerweise einem zweistufigen semantischen Rahmen zu, der Absatzniveau-Intentionen (Sentence-level Intent, SI) und Wortniveau-Slots (Word-level Slot, WS) umfasst. Allerdings bestehen alltägliche Gespräche hauptsächlich aus mehrschrittigen Dialogen, die die Interpretation komplexer und erweiterter Austauschprozesse erfordern. Forscher stehen vor Herausforderungen, alle Aspekte mehrschrittiger Dialoge mit einem einheitlichen NLU-Modell zu bewältigen. In diesem Artikel stellen wir MIDAS vor – einen neuartigen Ansatz, der mehrstufige Intentionen, Domänen- und Slot-Wissen durch Wissensdistillation für mehrschrittige NLU nutzt. Wir entwickeln spezifische Lehrmodelle für die SI-Erkennung, die WS-Ausfüllung und die klassifikation der Gesprächsebene (Conversation-level Domain, CD), wobei jedes Modell für bestimmte Fachkenntnisse feinabgestimmt wird. Ein mehrlehrer-basierter Verlust wird vorgeschlagen, um die Integration dieser Lehrmodelle zu ermöglichen und ein Schülermodell bei Aufgaben im mehrschrittigen Dialog zu leiten. Die Ergebnisse belegen die Wirksamkeit unseres Ansatzes zur Verbesserung des Verständnisses mehrschrittiger Gespräche und zeigen das Potenzial für Fortschritte im NLU durch mehrstufige Dialog-Wissensdistillation. Unsere Implementierung ist unter https://github.com/adlnlp/Midas öffentlich verfügbar.