HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Transformer-Netzwerke für end-to-end video-basierte Dialogsysteme

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

Zusammenfassung

Die Entwicklung von video-basierten Dialogsystemen (VGDS), bei denen ein Dialog auf der Grundlage visueller und akustischer Aspekte eines gegebenen Videos geführt wird, ist erheblich anspruchsvoller als die von traditionellen bild- oder textbasierten Dialogsystemen. Dies liegt daran, dass (1) der Merkmalsraum von Videos über mehrere Bildsequenzen verteilt ist, was es schwierig macht, semantische Informationen zu gewinnen; und (2) ein Dialogagent Informationen aus verschiedenen Modalitäten (Audio, Video, Untertitel usw.) wahrnehmen und verarbeiten muss, um ein umfassendes Verständnis zu erlangen. Die meisten bisherigen Arbeiten basieren auf rekurrenten neuronalen Netzen (RNNs) und sequenz-zu-sequenz-Architekturen, die für die Erfassung komplexer langfristiger Abhängigkeiten (wie in Videos) nicht sehr effektiv sind. Um dies zu überwinden, schlagen wir Multimodale Transformer-Netze (MTN) vor, um Videos zu kodieren und Informationen aus verschiedenen Modalitäten zu integrieren. Zudem schlagen wir eine abfragebewusste Aufmerksamkeit durch einen Autoencoder vor, um abfragebewusste Merkmale aus nicht-textuellen Modalitäten zu extrahieren. Wir entwickeln ein Trainingsverfahren zur Simulation des tokenweisen Decodings, um die Qualität der generierten Antworten während der Inferenz zu verbessern. Wir erzielen den Stand der Technik bei der Herausforderung 7 für Dialogsystemtechnologie (DSTC7). Unser Modell kann auch auf eine andere multimodale visuelle Dialogaufgabe generalisiert werden und zeigt vielversprechende Ergebnisse. Wir haben unsere Modelle mit PyTorch implementiert und das Code ist unter https://github.com/henryhungle/MTN veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp