ChatHaruhi-RolePlaying Rollenspiel-Dialogdatensatz

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
ChatHaruhi ist ein Datensatz mit 32 chinesischen/englischen TV-/Anime-Charakteren und über 54.000 simulierten Dialogen.
Mit großen Sprachmodellen erstellte Rollenspiel-Chatbots haben große Aufmerksamkeit erregt, doch um bestimmte fiktive Charaktere zu imitieren, sind fortgeschrittenere Techniken erforderlich. Die Forscher schlugen einen Algorithmus vor, der das Sprachmodell durch verbesserte Eingabeaufforderungen und das Gedächtnis von aus dem Skript extrahierten Zeichen steuert. Durch das Sammeln von Korpora aus Filmen, Romanen und Drehbüchern und die Durchführung einer strukturierten Extraktion sammelten die Forscher mehr als 23.000 Gesprächsnachrichten. Diese Konversationsdaten können zum Trainieren und Testen von Rollenspiel-Sprachmodellen verwendet werden. Gleichzeitig generierten die Forscher mithilfe des von den Forschern vorgeschlagenen Algorithmus und mit Hilfe von GPT3 und GPT4 mehr als 27.000 zusätzliche Dialoge für diese Charaktere.