Mehrmodalität offener Domäne Dialog

Kürzliche Arbeiten an offenen Domänen-Konversationsagenten haben gezeigt, dass durch eine erhebliche Skalierung sowohl der Vortrainingsdaten als auch der Modellgröße signifikante Verbesserungen in den Metriken für Modellengagement und Menschlichkeit erzielt werden können (Adiwardana et al., 2020; Roller et al., 2020). Um jedoch Agenten mit menschenähnlichen Fähigkeiten zu entwickeln, müssen wir über die Verarbeitung von Text hinausgehen. Ein besonders zentrales Thema ist die Fähigkeit, Bilder wahrzunehmen und über das Wahrgenommene zu kommunizieren. Mit dem Ziel, Menschen in multimodale Dialoge einzubinden, untersuchen wir die Kombination von Komponenten aus modernsten offenen Domänen-Dialogagenten mit solchen aus modernsten Visionmodellen. Wir analysieren verschiedene Ansätze zur Bildfusion sowie domainadaptives Vortrainings- und Feinabstimmungsstrategien und zeigen, dass unser bester resultierender Modell die Leistung bestehender Modelle in multimodalen Dialogen übertreffen kann, gleichzeitig aber ebenso gut wie sein Vorgängermodell (textbasiertes BlenderBot, Roller et al., 2020) in rein textbasierten Gesprächen abschneidet. Zudem untersuchen und integrieren wir Sicherheitskomponenten in unser endgültiges Modell und zeigen, dass solche Maßnahmen die Modellleistung hinsichtlich der Engagement-Metriken nicht beeinträchtigen.