Ein Repository von Konversationsdatensätzen

Fortschritte im maschinellen Lernen werden häufig durch die Verfügbarkeit großer Datensätze und konsistente Bewertungsmaßstäbe für den Vergleich von Modellierungsansätzen getrieben. In diesem Kontext präsentieren wir ein Repository von konversationsbasierten Datensätzen, das aus Hunderten von Millionen von Beispielen besteht, sowie ein standardisiertes Evaluationsverfahren für Modelle zur Auswahl konversationeller Antworten unter Verwendung der „1-von-100-Akurzität“ (1-of-100 accuracy). Das Repository enthält Skripte, die es Forschern ermöglichen, die Standarddatensätze zu reproduzieren oder die Vorverarbeitungsschritte und Datenfilterungen ihren Bedürfnissen anzupassen. Wir stellen und bewerten mehrere wettbewerbsfähige Baseline-Modelle für die Auswahl konversationeller Antworten vor, deren Implementierungen im Repository freigegeben werden, sowie ein neuronales Encoder-Modell, das auf dem gesamten Trainingsdatensatz trainiert wurde.