vor 3 Monaten

Verbesserung von Sprachmodellen durch Abfrage von Trillionen von Tokens

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre

Details der Forschungsarbeit anzeigen

Verbesserung von Sprachmodellen durch Abfrage von Trillionen von Tokens

Abstract

Wir verbessern autoregressive Sprachmodelle, indem wir sie auf Dokumentchunks konditionieren, die aus einer großen Korpus-Datenbank abgerufen werden und lokal相似 mit den vorhergehenden Tokens übereinstimmen. Mit einer Datenbank von 2 Billionen Tokens erreicht unser Retrieval-Enhanced Transformer (RETRO) auf dem Pile eine vergleichbare Leistung wie GPT-3 und Jurassic-1, obwohl er 25-mal weniger Parameter verwendet. Nach dem Fine-Tuning zeigt RETRO eine hohe Leistung bei aufwändigen Wissensaufgaben wie der Fragebeantwortung. RETRO kombiniert einen gefrorenen Bert-Retrieval-Modell, einen differenzierbaren Encoder und eine chunk-basierte Cross-Attention-Mechanismus, um Tokens basierend auf einer Größenordnung mehr Daten vorherzusagen, als typischerweise während des Trainings verarbeitet werden. Wir trainieren RETRO gewöhnlich von Grund auf neu, können jedoch auch vortrainierte Transformer schnell durch Integration von Retrieval anpassen und dennoch eine gute Leistung erzielen. Unsere Arbeit eröffnet neue Wege zur Verbesserung von Sprachmodellen durch explizite Speicherung auf einer bisher unerreichten Skala.