Multimodale Transformer-Netzwerke für end-to-end video-basierte Dialogsysteme

Die Entwicklung von video-basierten Dialogsystemen (VGDS), bei denen ein Dialog auf der Grundlage visueller und akustischer Aspekte eines gegebenen Videos geführt wird, ist erheblich anspruchsvoller als die von traditionellen bild- oder textbasierten Dialogsystemen. Dies liegt daran, dass (1) der Merkmalsraum von Videos über mehrere Bildsequenzen verteilt ist, was es schwierig macht, semantische Informationen zu gewinnen; und (2) ein Dialogagent Informationen aus verschiedenen Modalitäten (Audio, Video, Untertitel usw.) wahrnehmen und verarbeiten muss, um ein umfassendes Verständnis zu erlangen. Die meisten bisherigen Arbeiten basieren auf rekurrenten neuronalen Netzen (RNNs) und sequenz-zu-sequenz-Architekturen, die für die Erfassung komplexer langfristiger Abhängigkeiten (wie in Videos) nicht sehr effektiv sind. Um dies zu überwinden, schlagen wir Multimodale Transformer-Netze (MTN) vor, um Videos zu kodieren und Informationen aus verschiedenen Modalitäten zu integrieren. Zudem schlagen wir eine abfragebewusste Aufmerksamkeit durch einen Autoencoder vor, um abfragebewusste Merkmale aus nicht-textuellen Modalitäten zu extrahieren. Wir entwickeln ein Trainingsverfahren zur Simulation des tokenweisen Decodings, um die Qualität der generierten Antworten während der Inferenz zu verbessern. Wir erzielen den Stand der Technik bei der Herausforderung 7 für Dialogsystemtechnologie (DSTC7). Unser Modell kann auch auf eine andere multimodale visuelle Dialogaufgabe generalisiert werden und zeigt vielversprechende Ergebnisse. Wir haben unsere Modelle mit PyTorch implementiert und das Code ist unter https://github.com/henryhungle/MTN veröffentlicht.