ConveRT: Effiziente und genaue konversationelle Repräsentationen aus Transformers

Allgemeine vorab trainierte Satzencoder wie BERT sind für realweltliche Anwendungen im Bereich des konversationsbasierten KI nicht ideal; sie sind rechenaufwendig, langsam und teuer zu trainieren. Wir schlagen ConveRT (Conversational Representations from Transformers) vor, ein Vorab-Training-Framework für konversationale Aufgaben, das alle folgenden Anforderungen erfüllt: Es ist effektiv, kostengünstig und schnell zu trainieren. Wir führen das Vorab-Training unter Verwendung einer auf Abruf basierenden Antwortselektionsaufgabe durch, wobei wir die Quantisierung und die Parameterisierung auf Unterwortebene im Dualen Encoder effektiv nutzen, um ein leichtgewichtiges, speicher- und energieeffizientes Modell zu erstellen. Wir zeigen, dass ConveRT über eine breite Palette etablierter Antwortselektionsaufgaben hinweg Spitzenleistungen erzielt. Darüber hinaus demonstrieren wir, dass die Verwendung erweiterter Dialoggeschichte als Kontext zusätzliche Leistungssteigerungen bringt. Schließlich zeigen wir, dass die vorab trainierten Repräsentationen des vorgeschlagenen Encoders auf die Intentionserkennungsaufgabe übertragen werden können und dabei starke Ergebnisse in drei verschiedenen Datensätzen erzielen. ConveRT trainiert erheblich schneller als Standard-Satzencoder oder frühere Spitzenmodelle von Dualen Encodern. Dank seiner reduzierten Größe und der überlegenen Leistung glauben wir, dass dieses Modell eine größere Portabilität und Skalierbarkeit für Anwendungen im Bereich der konversationsbasierten KI verspricht.