Verbesserung von Sprachmodellen durch Abfrage von Trillionen von Tokens

Wir verbessern autoregressive Sprachmodelle, indem wir sie auf Dokumentchunks konditionieren, die aus einer großen Korpus-Datenbank abgerufen werden und lokal相似 mit den vorhergehenden Tokens übereinstimmen. Mit einer Datenbank von 2 Billionen Tokens erreicht unser Retrieval-Enhanced Transformer (RETRO) auf dem Pile eine vergleichbare Leistung wie GPT-3 und Jurassic-1, obwohl er 25-mal weniger Parameter verwendet. Nach dem Fine-Tuning zeigt RETRO eine hohe Leistung bei aufwändigen Wissensaufgaben wie der Fragebeantwortung. RETRO kombiniert einen gefrorenen Bert-Retrieval-Modell, einen differenzierbaren Encoder und eine chunk-basierte Cross-Attention-Mechanismus, um Tokens basierend auf einer Größenordnung mehr Daten vorherzusagen, als typischerweise während des Trainings verarbeitet werden. Wir trainieren RETRO gewöhnlich von Grund auf neu, können jedoch auch vortrainierte Transformer schnell durch Integration von Retrieval anpassen und dennoch eine gute Leistung erzielen. Unsere Arbeit eröffnet neue Wege zur Verbesserung von Sprachmodellen durch explizite Speicherung auf einer bisher unerreichten Skala.