HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelles Dialogfeld

Abhishek Das; Satwik Kottur; Khushi Gupta; Avi Singh; Deshraj Yadav; José M. F. Moura; Devi Parikh; Dhruv Batra

Zusammenfassung

Wir stellen die Aufgabe des visuellen Dialogs vor, bei der ein KI-Agent in natürlicher, konversationsähnlicher Sprache einen sinnvollen Dialog mit Menschen über visuelle Inhalte führen muss. Genauer gesagt, wenn ein Bild, eine Dialoggeschichte und eine Frage zum Bild gegeben sind, muss der Agent die Frage im Bild verankern, aus der Geschichte den Kontext ableiten und die Frage präzise beantworten. Der visuelle Dialog ist weit genug von einer spezifischen nachgelagerten Aufgabe entkoppelt, um als allgemeiner Test für maschinelles Intellekt zu dienen, gleichzeitig aber so sehr in der Vision verwurzelt, dass er es ermöglicht, einzelne Antworten objektiv zu bewerten und den Fortschritt bei Benchmarks zu verfolgen. Wir entwickeln ein neues Protokoll zur Datensammlung durch Chats zwischen zwei Personen, um einen groß angelegten visuellen Dialogdatensatz (VisDial) zu erstellen. Die Version VisDial v0.9 wurde veröffentlicht und enthält 1 Dialog mit 10 Frage-Antwort-Paaren auf etwa 120.000 Bildern aus COCO, insgesamt etwa 1,2 Millionen Dialog-Frage-Antwort-Paare.Wir führen eine Familie neuronaler Encoder-Decoder-Modelle für den visuellen Dialog ein, die drei Encoder – Späte Fusion (Late Fusion), Hierarchischer rekurrenter Encoder (Hierarchical Recurrent Encoder) und Gedächtnisnetzwerk (Memory Network) – sowie zwei Decoder (generativ und diskriminativ) umfasst. Diese Modelle übertreffen eine Reihe komplexer Baseline-Methoden. Wir schlagen ein abrufbasiertes Evaluationsprotokoll für den visuellen Dialog vor, bei dem der KI-Agent gebeten wird, eine Menge von möglichen Antworten zu sortieren und anhand von Metriken wie dem mittleren Reziproken Rang der menschlichen Antwort bewertet wird. Durch menschliche Studien quantifizieren wir die Lücke zwischen der Leistung von Maschinen und Menschen bei der Aufgabe des visuellen Dialogs. Insgesamt demonstrieren wir den ersten „visuellen Chatbot“! Unser Datensatz, unser Code, unsere trainierten Modelle und unser visueller Chatbot sind unter https://visualdialog.org verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp