HyperAIHyperAI
vor 2 Monaten

PaCE: Einheitliche multimodale Dialog-Vorverarbeitung mit fortschreitenden und kompositionellen Experten

Yunshui Li; Binyuan Hui; ZhiChao Yin; Min Yang; Fei Huang; Yongbin Li
PaCE: Einheitliche multimodale Dialog-Vorverarbeitung mit fortschreitenden und kompositionellen Experten
Abstract

Das Wahrnehmen multimodaler Informationen und das Durchführen von Dialogen mit Menschen ist ein langfristiges Ziel der Künstlichen Intelligenz. Prätraining wird allgemein als effektiver Ansatz für multimodale Dialoge angesehen. Dennoch ist aufgrund der begrenzten Verfügbarkeit multimodaler Dialogdaten die Forschung zu multimodal vortrainierten Dialogmodellen noch lückenhaft. Ein weiteres faszinierendes Herausforderung ergibt sich aus dem umfassenden Charakter multimodaler Dialoge, die verschiedene Modalitäten und Aufgaben umfassen. Zudem können neue Aufgabenformen in unvorhersehbaren Zeitpunkten in der Zukunft entstehen. Es ist daher entscheidend, dass entwickelte multimodale Dialogmodelle genügend Flexibilität besitzen, um solchen Szenarien anzupassen. In dieser Arbeit wird \textbf{PaCE} vorgestellt, ein vereintes, strukturiertes und kompositionales Framework für das Prätraining multimodaler Dialogue. Es nutzt eine Kombination mehrerer grundlegender Experten, um verschiedene dialogbezogene Aufgaben abzudecken, und kann unter Verwendung begrenzter Dialog- und umfangreicher nicht-dialogbezogener multimodaler Daten vortrainiert werden. Darüber hinaus schlagen wir eine fortschreitende Trainingsmethode vor, bei der alte Experten aus der Vergangenheit neuen Experten helfen können, ihre Fähigkeiten zu erweitern. Die experimentellen Ergebnisse zeigen, dass PaCE den aktuellen Stand der Technik auf acht Benchmarks für multimodale Dialoge erreicht.

PaCE: Einheitliche multimodale Dialog-Vorverarbeitung mit fortschreitenden und kompositionellen Experten | Neueste Forschungsarbeiten | HyperAI