CM-Net: Ein neuartiges kooperatives Gedächtnisnetzwerk für die Verständnis von gesprochener Sprache

Sprachverstehen (Spoken Language Understanding, SLU) umfasst hauptsächlich zwei Aufgaben: die Absichtserkennung (intent detection) und die Slot-Füllung (slot filling), die in den meisten bestehenden Ansätzen gemeinsam modelliert werden. Allerdings nutzen die meisten derzeitigen Modelle die Ko-Occurrenz-Beziehungen zwischen Slots und Absichten nicht vollständig aus, was ihre Leistungspotenziale einschränkt. Um dieses Problem anzugehen, schlagen wir in diesem Artikel ein neuartiges kooperatives Speicher-Netzwerk (Collaborative Memory Network, CM-Net) vor, das auf einem sorgfältig entworfenen Baustein, dem CM-Block, basiert. Der CM-Block erfasst zunächst slot-spezifische und absichtsspezifische Merkmale aus Speichern kooperativ und nutzt anschließend diese angereicherten Merkmale, um die lokalen Kontextdarstellungen zu verbessern. Auf dieser Grundlage ermöglicht der sequenzielle Informationsfluss eine präzisere globale Darstellung der gesamten Äußerung im Hinblick auf Slot und Absicht. Durch die Stapelung mehrerer CM-Blöcke kann das CM-Net kontinuierlich zwischen spezifischen Speichern, lokalen Kontexten und der globalen Äußerung Informationen austauschen und sich dabei gegenseitig schrittweise anreichern. Wir evaluieren das CM-Net an zwei Standardbenchmarks (ATIS und SNIPS) sowie an einem selbst gesammelten Korpus (CAIS). Experimentelle Ergebnisse zeigen, dass das CM-Net auf ATIS und SNIPS in den meisten Metriken die bisher beste Leistung erzielt und auf dem CAIS deutlich über den Basismodellen abschneidet. Zudem stellen wir die CAIS-Datenbank der Forschungsgemeinschaft öffentlich zur Verfügung.