TransferTransfo: Ein Transfer-Learning-Ansatz für neuronale Netzwerke basierte konversationsfähige Agenten

Wir stellen einen neuen Ansatz für generative datengetriebene Dialogsysteme (z.B. Chatbots) vor, der als TransferTransfo bezeichnet wird und eine Kombination aus einem transferbasierten Trainingsverfahren und einem hochkapazitäts Transformer-Modell darstellt. Die Feinabstimmung erfolgt durch die Verwendung eines mehrfach gestellten Ziels, das mehrere unüberwachte Vorhersageaufgaben kombiniert. Das resultierende feingetune Modell zeigt erhebliche Verbesserungen im Vergleich zu den aktuellen state-of-the-art end-to-end konversationellen Modellen wie memory-augmentierten seq2seq-Modellen und informationsretrieval-basierten Modellen. Bei dem privat gehaltenen PERSONA-CHAT-Datensatz des Conversational Intelligence Challenges 2 erreicht dieser Ansatz ein neues state-of-the-art-Ergebnis, mit entsprechenden Perplexität-, Hits@1- und F1-Werten von 16,28 (45 % absoluter Verbesserung), 80,7 (46 % absoluter Verbesserung) und 19,5 (20 % absoluter Verbesserung).