HyperAIHyperAI

Command Palette

Search for a command to run...

Dialoglernen mit menschlicher Anleitung und Rückmeldung in end-to-end trainierbaren taskorientierten Dialogsystemen

Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

Zusammenfassung

In dieser Arbeit stellen wir eine hybride Lernmethode vor, mit der task-orientierte Dialogsysteme durch Online-Nutzerinteraktionen trainiert werden können. Beliebte Methoden zum Lernen task-orientierter Dialoge umfassen die Anwendung von Verstärkungslernen mit Nutzerfeedback auf überwachte Vortrainingsmodelle. Die Effizienz solcher Lernmethoden kann durch die Fehlkorrespondenz der Dialogzustandsverteilung zwischen den Offline-Trainings- und den Online-interaktiven Lernphasen beeinträchtigt werden. Um diese Herausforderung zu bewältigen, schlagen wir eine hybride Methode des Imitations- und Verstärkungslernens vor, mit der ein Dialogagent effektiv aus seiner Interaktion mit Nutzern lernen kann, indem er menschliche Unterrichtseinheiten und Feedback verarbeitet. Wir haben einen task-orientierten Dialogagenten basierend auf neuronalen Netzen entwickelt, der mit der vorgeschlagenen Lernmethode von Anfang bis Ende optimiert werden kann. Experimentelle Ergebnisse zeigen, dass unser End-to-End-Dialogagent effektiv aus seinen Fehlern lernen kann, indem er das Nutzerunterrichtsbeispiel imitiert. Die Anwendung von Verstärkungslernen mit Nutzerfeedback nach der Imitationslernphase verbessert die Fähigkeit des Agenten, eine Aufgabe erfolgreich abzuschließen, weiter.请注意,虽然您的要求中提到了“法语”,但根据上下文判断,您需要的是德语翻译。如果您确实需要法语翻译,请告知我,我会进行相应的调整。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp