HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Sprachmodellen durch Abfrage von Trillionen von Tokens

Zusammenfassung

Wir verbessern autoregressive Sprachmodelle, indem wir sie auf Dokumentchunks konditionieren, die aus einer großen Korpus-Datenbank abgerufen werden und lokal相似 mit den vorhergehenden Tokens übereinstimmen. Mit einer Datenbank von 2 Billionen Tokens erreicht unser Retrieval-Enhanced Transformer (RETRO) auf dem Pile eine vergleichbare Leistung wie GPT-3 und Jurassic-1, obwohl er 25-mal weniger Parameter verwendet. Nach dem Fine-Tuning zeigt RETRO eine hohe Leistung bei aufwändigen Wissensaufgaben wie der Fragebeantwortung. RETRO kombiniert einen gefrorenen Bert-Retrieval-Modell, einen differenzierbaren Encoder und eine chunk-basierte Cross-Attention-Mechanismus, um Tokens basierend auf einer Größenordnung mehr Daten vorherzusagen, als typischerweise während des Trainings verarbeitet werden. Wir trainieren RETRO gewöhnlich von Grund auf neu, können jedoch auch vortrainierte Transformer schnell durch Integration von Retrieval anpassen und dennoch eine gute Leistung erzielen. Unsere Arbeit eröffnet neue Wege zur Verbesserung von Sprachmodellen durch explizite Speicherung auf einer bisher unerreichten Skala.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp