HyperAIHyperAI

Command Palette

Search for a command to run...

OpenViDial 2.0: Ein umfangreicheres, offenes Datensatz für die Generierung von Dialogen mit visuellen Kontexten

Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li

Zusammenfassung

Um den echten menschlichen Konversationsprozess besser zu simulieren, müssen Modelle Dialogäußerungen nicht nur auf der Grundlage vorheriger textueller Kontexte, sondern auch visueller Kontexte generieren. Allerdings wird mit der Entwicklung des multimodalen Dialoglernens die Datensatzgröße zunehmend zu einer Engstelle. In diesem Bericht stellen wir OpenViDial 2.0 vor, einen umfangreicheren offenen multimodalen Dialogdatensatz im Vergleich zur früheren Version OpenViDial 1.0. OpenViDial 2.0 enthält insgesamt 5,6 Millionen Dialogwechsel, die aus verschiedenen Quellen wie Filmen oder Fernsehserien extrahiert wurden, und jeder Dialogwechsel ist mit seinem entsprechenden visuellen Kontext gekoppelt. Wir hoffen, dass dieser große Datensatz zukünftige Forschungen zur Generierung von offenen multimodalen Dialogen fördern kann, beispielsweise durch multimodales Vortraining für Dialoggenerierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp