Ein einfacher Baseline für audiovisuelle, szenenbewusste Dialoge

Die kürzlich vorgeschlagene audio-visuelle, szenenbewusste Dialogaufgabe eröffnet den Weg zu einem datengetriebeneren Lernansatz für virtuelle Assistenten, Smart Speaker und Fahrzeugnavigationssysteme. Bislang ist jedoch nur sehr wenig darüber bekannt, wie sinnvolle Informationen effektiv aus einer Vielzahl von Sensoren extrahiert werden können, die die Rechenleistung dieser Geräte belasten. Daher stellen wir in diesem Artikel eine einfache Baseline für audio-visuelle, szenenbewusste Dialogsysteme vor, die end-to-end trainiert wird, und analysieren sie detailliert. Unser Ansatz unterscheidet auf datengetriebene Weise relevante Signale von störenden durch die Nutzung eines Aufmerksamkeitsmechanismus. Wir evaluieren den vorgeschlagenen Ansatz auf dem kürzlich vorgestellten und anspruchsvollen audio-visuellen, szenenbewussten Datensatz und zeigen, dass die zentralen Merkmale es ermöglichen, die derzeitige State-of-the-Art-Leistung um mehr als 20 % im CIDEr-Maß zu überbieten.