HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachmodelle sind allgemeinzweckfähige Schnittstellen

Yaru Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei

Zusammenfassung

Grundlagenmodelle haben aufgrund ihrer Effektivität in einer Vielzahl von Anwendungsbereichen erhebliche Aufmerksamkeit erhalten. Obwohl die Architekturen in vielen Fällen stark konvergieren, werden die meisten vortrainierten Modelle weiterhin für spezifische Aufgaben oder Modalitäten entwickelt. In dieser Arbeit schlagen wir vor, Sprachmodelle als universellen Schnittstellenmechanismus für verschiedene Grundlagenmodelle zu nutzen. Eine Sammlung vortrainierter Encoder verarbeitet unterschiedliche Modalitäten (wie z. B. visuelle Daten und Sprache), die sich an ein Sprachmodell anschließen, das als universelle Aufgaben-Schicht fungiert. Wir stellen ein semi-kausales Sprachmodellierungsziel vor, um die Schnittstelle und die modularen Encoder gemeinsam vorzutrainieren. Dadurch vereinen wir die Vorteile sowohl kausaler als auch nicht-kausaler Modellierung und kombinieren somit das Beste aus beiden Welten. Insbesondere vererbt die vorgeschlagene Methode nicht nur die Fähigkeiten des in-Context-Lernens und der offenen Generierung aus der kausalen Sprachmodellierung, sondern ist auch günstig für das Fine-Tuning dank der bidirektionalen Encoder. Vor allem ermöglicht unser Ansatz nahtlos die Kombination dieser Fähigkeiten, beispielsweise das in-Context-Lernen oder die Befolgung von Anweisungen mit fine-tunenden Encodern. Experimentelle Ergebnisse auf verschiedenen rein sprachbasierten sowie visuell-sprachlichen Benchmarks zeigen, dass unser Modell bei der Fine-Tuning-, Zero-Shot-Verallgemeinerung und Few-Shot-Lernleistung entweder übertrifft oder mit spezialisierten Modellen konkurriert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprachmodelle sind allgemeinzweckfähige Schnittstellen | Paper | HyperAI