vor 17 Tagen

Sprachmodelle sind allgemeinzweckfähige Schnittstellen

Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei

Abstract

Grundlagenmodelle haben aufgrund ihrer Effektivität in einer Vielzahl von Anwendungsbereichen erhebliche Aufmerksamkeit erhalten. Obwohl die Architekturen in vielen Fällen stark konvergieren, werden die meisten vortrainierten Modelle weiterhin für spezifische Aufgaben oder Modalitäten entwickelt. In dieser Arbeit schlagen wir vor, Sprachmodelle als universellen Schnittstellenmechanismus für verschiedene Grundlagenmodelle zu nutzen. Eine Sammlung vortrainierter Encoder verarbeitet unterschiedliche Modalitäten (wie z. B. visuelle Daten und Sprache), die sich an ein Sprachmodell anschließen, das als universelle Aufgaben-Schicht fungiert. Wir stellen ein semi-kausales Sprachmodellierungsziel vor, um die Schnittstelle und die modularen Encoder gemeinsam vorzutrainieren. Dadurch vereinen wir die Vorteile sowohl kausaler als auch nicht-kausaler Modellierung und kombinieren somit das Beste aus beiden Welten. Insbesondere vererbt die vorgeschlagene Methode nicht nur die Fähigkeiten des in-Context-Lernens und der offenen Generierung aus der kausalen Sprachmodellierung, sondern ist auch günstig für das Fine-Tuning dank der bidirektionalen Encoder. Vor allem ermöglicht unser Ansatz nahtlos die Kombination dieser Fähigkeiten, beispielsweise das in-Context-Lernen oder die Befolgung von Anweisungen mit fine-tunenden Encodern. Experimentelle Ergebnisse auf verschiedenen rein sprachbasierten sowie visuell-sprachlichen Benchmarks zeigen, dass unser Modell bei der Fine-Tuning-, Zero-Shot-Verallgemeinerung und Few-Shot-Lernleistung entweder übertrifft oder mit spezialisierten Modellen konkurriert.