HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrmodalität offener Domäne Dialog

Kurt Shuster Eric Michael Smith Da Ju Jason Weston

Zusammenfassung

Kürzliche Arbeiten an offenen Domänen-Konversationsagenten haben gezeigt, dass durch eine erhebliche Skalierung sowohl der Vortrainingsdaten als auch der Modellgröße signifikante Verbesserungen in den Metriken für Modellengagement und Menschlichkeit erzielt werden können (Adiwardana et al., 2020; Roller et al., 2020). Um jedoch Agenten mit menschenähnlichen Fähigkeiten zu entwickeln, müssen wir über die Verarbeitung von Text hinausgehen. Ein besonders zentrales Thema ist die Fähigkeit, Bilder wahrzunehmen und über das Wahrgenommene zu kommunizieren. Mit dem Ziel, Menschen in multimodale Dialoge einzubinden, untersuchen wir die Kombination von Komponenten aus modernsten offenen Domänen-Dialogagenten mit solchen aus modernsten Visionmodellen. Wir analysieren verschiedene Ansätze zur Bildfusion sowie domainadaptives Vortrainings- und Feinabstimmungsstrategien und zeigen, dass unser bester resultierender Modell die Leistung bestehender Modelle in multimodalen Dialogen übertreffen kann, gleichzeitig aber ebenso gut wie sein Vorgängermodell (textbasiertes BlenderBot, Roller et al., 2020) in rein textbasierten Gesprächen abschneidet. Zudem untersuchen und integrieren wir Sicherheitskomponenten in unser endgültiges Modell und zeigen, dass solche Maßnahmen die Modellleistung hinsichtlich der Engagement-Metriken nicht beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp