HyperAIHyperAI
منذ 3 أشهر

تحسين النماذج اللغوية من خلال استرجاع تريليونات التوكنات

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre
تحسين النماذج اللغوية من خلال استرجاع تريليونات التوكنات
الملخص

نُحسِّن النماذج اللغوية التوليدية التلقائية من خلال تكييفها على قطع مستندات تم استردادها من مجموعة بيانات ضخمة، بناءً على التشابه المحلي مع الرموز السابقة. وباستخدام قاعدة بيانات تضم 2 تريليون رمز، يحقق نموذج RETRO (المحول المُعزَّز بالاسترجاع) أداءً مماثلاً لنموذج GPT-3 وJurassic-1 على مجموعة Pile، رغم استخدامه لعدد من المعاملات أقل بـ 25 مرة. وبعد التدريب الدقيق، يُترجم أداء RETRO إلى مهام متعددة تعتمد على المعرفة في المهام التطبيقية، مثل الإجابة على الأسئلة. يدمج RETRO مسترجِع Bert ثابت، ومشفر قابل للتمييز، وآلية انتباه متقاطع مُقسَّمة إلى قطع، لتمكين توقع الرموز بناءً على بيانات تفوق بكثير كمية البيانات التي تُستهلك عادةً أثناء التدريب. ورغم أننا نُدرّب RETRO عادةً من الصفر، إلا أنه يمكننا أيضًا تكييف نماذج محولات مُدرَّبة مسبقًا بسرعة باستخدام الاسترجاع، مع الحفاظ على أداء جيد. تفتح أبحاثنا آفاقًا جديدة لتحسين النماذج اللغوية من خلال الذاكرة الصريحة على نطاق غير مسبوق.