OpenViDial 2.0: Ein umfangreicheres, offenes Datensatz für die Generierung von Dialogen mit visuellen Kontexten

Um den echten menschlichen Konversationsprozess besser zu simulieren, müssen Modelle Dialogäußerungen nicht nur auf der Grundlage vorheriger textueller Kontexte, sondern auch visueller Kontexte generieren. Allerdings wird mit der Entwicklung des multimodalen Dialoglernens die Datensatzgröße zunehmend zu einer Engstelle. In diesem Bericht stellen wir OpenViDial 2.0 vor, einen umfangreicheren offenen multimodalen Dialogdatensatz im Vergleich zur früheren Version OpenViDial 1.0. OpenViDial 2.0 enthält insgesamt 5,6 Millionen Dialogwechsel, die aus verschiedenen Quellen wie Filmen oder Fernsehserien extrahiert wurden, und jeder Dialogwechsel ist mit seinem entsprechenden visuellen Kontext gekoppelt. Wir hoffen, dass dieser große Datensatz zukünftige Forschungen zur Generierung von offenen multimodalen Dialogen fördern kann, beispielsweise durch multimodales Vortraining für Dialoggenerierung.