Text reicht nicht mehr aus! Ein Benchmark für profilbasierte Sprachverstehenssysteme

Aktuelle Forschungsarbeiten im Bereich des gesprochenen Sprachverstehens (Spoken Language Understanding, SLU) sind stark auf einen vereinfachten Ansatz beschränkt: das textbasierte SLU, bei dem die Benutzeräußerung als Eingabe dient und entsprechende semantische Rahmen (z. B. Absicht und Slots) generiert werden. Leider kann ein solcher vereinfachter Ansatz in komplexen realen Szenarien versagen, insbesondere wenn eine Äußerung semantisch mehrdeutig ist, was durch reine textbasierte SLU-Modelle nicht bewältigt werden kann. In diesem Paper führen wir erstmals eine neue und bedeutende Aufgabe ein: das profilbasierte gesprochene Sprachverstehen (Profile-based Spoken Language Understanding, ProSLU), bei der das Modell nicht nur auf reinem Text, sondern auch auf unterstützende Profilinformationen angewiesen ist, um korrekte Absichten und Slots vorherzusagen. Dazu präsentieren wir zudem eine großskalige, menschlich annotierte chinesische Datensammlung mit über 5.000 Äußerungen und deren entsprechenden unterstützenden Profilinformationen (Wissensgraph (KG), Nutzerprofil (UP), Kontextbewusstsein (CA)). Darüber hinaus evaluieren wir mehrere aktuelle Spitzenmodelle und untersuchen einen mehrstufigen Wissensadapter, um die Profilinformationen effektiv zu integrieren. Experimentelle Ergebnisse zeigen, dass alle bestehenden textbasierten SLU-Modelle bei semantisch mehrdeutigen Äußerungen versagen, während unser vorgeschlagenes Framework die unterstützenden Informationen effektiv für die Absichtserkennung auf Satzebene und die Slotfüllung auf Token-Ebene fusionieren kann. Abschließend fassen wir die zentralen Herausforderungen zusammen und geben neue Anregungen für zukünftige Forschungsrichtungen, mit der Hoffnung, die Entwicklung im Bereich des SLU zu fördern.