Bildchat: Interaktive begründete Konversationen

Um das langfristige Ziel zu erreichen, dass Maschinen in der Lage sind, Menschen in Konversationen einzubeziehen, sollten unsere Modelle das Interesse ihrer Gesprächspartner fesseln. Eine Kommunikation, die auf Bildern basiert, bei der ein Dialog anhand eines gegebenen Fotos geführt wird, ist eine für Menschen natürliche und ansprechende Situation (Hu et al., 2014). In dieser Arbeit untersuchen wir groß angelegte Architekturen und Datensätze für dieses Ziel. Wir testen eine Reihe von neuronalen Architekturen unter Verwendung modernster Bild- und Textrepräsentationen und betrachten dabei verschiedene Methoden zur Fusionierung der Komponenten. Um solche Modelle zu testen, sammeln wir einen Datensatz mit menschlichen Konversationen, die auf Bildern basieren. Die Sprecher werden gebeten, Rollen zu spielen, die einem vorgegebenen emotionalen Stimmung oder Stil entsprechen, da die Nutzung solcher Merkmale auch ein entscheidender Faktor für die Attraktivität des Gesprächs ist (Guo et al., 2019). Unser Datensatz Image-Chat besteht aus 202.000 Dialogen über 202.000 Bilder unter Verwendung von 215 möglichen Stilmustern. Automatische Metriken und menschliche Bewertungen der Attraktivität zeigen die Effektivität unseres Ansatzes; insbesondere erzielen wir den Stand der Technik in der bestehenden IGC-Aufgabe und unser bestes Modell liegt fast auf dem Niveau von Menschen im Testdatensatz von Image-Chat (in 47,7 % der Fälle bevorzugt).