HyperAIHyperAI
vor 2 Monaten

Visuelles Dialogfeld

Abhishek Das; Satwik Kottur; Khushi Gupta; Avi Singh; Deshraj Yadav; José M. F. Moura; Devi Parikh; Dhruv Batra
Visuelles Dialogfeld
Abstract

Wir stellen die Aufgabe des visuellen Dialogs vor, bei der ein KI-Agent in natürlicher, konversationsähnlicher Sprache einen sinnvollen Dialog mit Menschen über visuelle Inhalte führen muss. Genauer gesagt, wenn ein Bild, eine Dialoggeschichte und eine Frage zum Bild gegeben sind, muss der Agent die Frage im Bild verankern, aus der Geschichte den Kontext ableiten und die Frage präzise beantworten. Der visuelle Dialog ist weit genug von einer spezifischen nachgelagerten Aufgabe entkoppelt, um als allgemeiner Test für maschinelles Intellekt zu dienen, gleichzeitig aber so sehr in der Vision verwurzelt, dass er es ermöglicht, einzelne Antworten objektiv zu bewerten und den Fortschritt bei Benchmarks zu verfolgen. Wir entwickeln ein neues Protokoll zur Datensammlung durch Chats zwischen zwei Personen, um einen groß angelegten visuellen Dialogdatensatz (VisDial) zu erstellen. Die Version VisDial v0.9 wurde veröffentlicht und enthält 1 Dialog mit 10 Frage-Antwort-Paaren auf etwa 120.000 Bildern aus COCO, insgesamt etwa 1,2 Millionen Dialog-Frage-Antwort-Paare.Wir führen eine Familie neuronaler Encoder-Decoder-Modelle für den visuellen Dialog ein, die drei Encoder – Späte Fusion (Late Fusion), Hierarchischer rekurrenter Encoder (Hierarchical Recurrent Encoder) und Gedächtnisnetzwerk (Memory Network) – sowie zwei Decoder (generativ und diskriminativ) umfasst. Diese Modelle übertreffen eine Reihe komplexer Baseline-Methoden. Wir schlagen ein abrufbasiertes Evaluationsprotokoll für den visuellen Dialog vor, bei dem der KI-Agent gebeten wird, eine Menge von möglichen Antworten zu sortieren und anhand von Metriken wie dem mittleren Reziproken Rang der menschlichen Antwort bewertet wird. Durch menschliche Studien quantifizieren wir die Lücke zwischen der Leistung von Maschinen und Menschen bei der Aufgabe des visuellen Dialogs. Insgesamt demonstrieren wir den ersten „visuellen Chatbot“! Unser Datensatz, unser Code, unsere trainierten Modelle und unser visueller Chatbot sind unter https://visualdialog.org verfügbar.

Visuelles Dialogfeld | Neueste Forschungsarbeiten | HyperAI