HyperAIHyperAI

Command Palette

Search for a command to run...

Ein einfacher Baseline für audiovisuelle, szenenbewusste Dialoge

Tamir Hazan Alexander G. Schwing Idan Schwartz

Zusammenfassung

Die kürzlich vorgeschlagene audio-visuelle, szenenbewusste Dialogaufgabe eröffnet den Weg zu einem datengetriebeneren Lernansatz für virtuelle Assistenten, Smart Speaker und Fahrzeugnavigationssysteme. Bislang ist jedoch nur sehr wenig darüber bekannt, wie sinnvolle Informationen effektiv aus einer Vielzahl von Sensoren extrahiert werden können, die die Rechenleistung dieser Geräte belasten. Daher stellen wir in diesem Artikel eine einfache Baseline für audio-visuelle, szenenbewusste Dialogsysteme vor, die end-to-end trainiert wird, und analysieren sie detailliert. Unser Ansatz unterscheidet auf datengetriebene Weise relevante Signale von störenden durch die Nutzung eines Aufmerksamkeitsmechanismus. Wir evaluieren den vorgeschlagenen Ansatz auf dem kürzlich vorgestellten und anspruchsvollen audio-visuellen, szenenbewussten Datensatz und zeigen, dass die zentralen Merkmale es ermöglichen, die derzeitige State-of-the-Art-Leistung um mehr als 20 % im CIDEr-Maß zu überbieten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp