HyperAIHyperAI

Command Palette

Search for a command to run...

Sprechen Sie mit mir? Grundlegende Generierung von visuellen Dialogen durch adversariales Lernen

Qi Wu Peng Wang Chunhua Shen Ian Reid Anton van den Hengel

Zusammenfassung

Die Aufgabe des visuellen Dialogs erfordert von einem Agenten, dass er ein Gespräch über ein Bild mit einem Menschen führt. Sie stellt eine Erweiterung der Aufgabe des visuellen Fragenbeantwortens dar, bei der der Agent eine Frage zu einem Bild beantworten muss, jedoch unter Berücksichtigung des bisher geführten Dialogs. Die wesentliche Herausforderung beim visuellen Dialog besteht daher darin, einen konsistenten und natürlichen Dialog aufrechtzuerhalten, während gleichzeitig korrekt auf Fragen geantwortet wird. Wir stellen einen neuen Ansatz vor, der Reinforcement Learning und Generative Adversarial Networks (GANs) kombiniert, um menschenähnlichere Antworten auf Fragen zu generieren. Das GAN hilft dabei, die relative Knappheit von Trainingsdaten zu überwinden sowie die Neigung herkömmlicher MLE-basierter Ansätze, zu knappe Antworten zu erzeugen. Kritisch ist dabei, dass das GAN eng in den Aufmerksamkeitsmechanismus integriert ist, der menschenlesbare Gründe für jede Antwort generiert. Dies bedeutet, dass das diskriminative Modell des GANs die Aufgabe hat, zu bewerten, ob eine potentielle Antwort von einem Menschen stammt oder nicht, basierend auf dem bereitgestellten Grund. Dies ist bedeutsam, da es das generative Modell dazu anregt, hochwertige Antworten zu produzieren, die durch die zugehörige Begründung gut gestützt sind. Die Methode erzielt außerdem standesgemäße Ergebnisse im Hauptbenchmark.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp