HyperAIHyperAI
منذ 2 أشهر

توسيع نماذج اللغة: الطرق، التحليل، والرؤى من تدريب غوفر

Jack W. Rae; Sebastian Borgeaud; Trevor Cai; Katie Millican; Jordan Hoffmann; Francis Song; John Aslanides; Sarah Henderson; Roman Ring; Susannah Young; Eliza Rutherford; Tom Hennigan; Jacob Menick; Albin Cassirer; Richard Powell; George van den Driessche; Lisa Anne Hendricks; Maribeth Rauh; Po-Sen Huang; Amelia Glaese; Johannes Welbl; Sumanth Dathathri; Saffron Huang; Jonathan Uesato; John Mellor; Irina Higgins; Antonia Creswell; Nat McAleese; Amy Wu; Erich Elsen; Siddhant Jayakumar; Elena Buchatskaya; David Budden; Esme Sutherland; Karen Simonyan; Michela Paganini; Laurent Sifre; Lena Martens; Xiang Lorraine Li; Adhiguna Kuncoro; Aida Nematzadeh; Elena Gribovskaya; Domenic Donato; Angeliki Lazaridou; Arthur Mensch; Jean-Baptiste Lespiau; Maria Tsimpoukelli; Nikolai Grigorev; Doug Fritz; Thibault Sottiaux; Mantas Pajarskas; Toby Pohlen; Zhitao Gong; Daniel Toyama; Cyprien de Masson d'Autume; Yujia Li; Tayfun Terzi; Vladimir Mikulik; Igor Babuschkin; Aidan Clark; Diego de Las Casas; Aurelia Guy; Chris Jones; James Bradbury; Matthew Johnson; Blake Hechtman; Laura Weidinger; Iason Gabriel; William Isaac; Ed Lockhart; Simon Osindero; Laura Rimell; Chris Dyer; Oriol Vinyals; Kareem Ayoub; Jeff Stanway; Lorrayne Bennett; Demis Hassabis; Koray Kavukcuoglu; Geoffrey Irving
توسيع نماذج اللغة: الطرق، التحليل، والرؤى من تدريب غوفر
الملخص

يقدم نمذجة اللغة خطوة نحو أنظمة التواصل الذكية من خلال الاستفادة من مستودعات كبيرة للمعرفة المكتوبة للبشر لتحسين التنبؤ والفهم العالم. في هذا البحث، نقدم تحليلًا لأداء نماذج اللغة المستندة إلى تقنية Transformer على نطاق واسع من أحجام النماذج - بدءًا من النماذج التي تحتوي على ملايين المعلمات حتى نموذج يحتوي على 280 مليار معلمة يُطلق عليه اسم Gopher (غوفر). يتم تقييم هذه النماذج في 152 مهمة متنوعة، حيث حققت أداءً رائدًا في معظمها. تكون المكاسب من الحجم أكبر في مجالات مثل فهم القراءة، التحقق من الحقائق، وتحديد اللغة السامة، بينما ترى المنطقية والرياضيات أقل فائدة. نقدم تحليلًا شاملًا لمجموعة البيانات التدريبية وسلوك النموذج، مع التركيز على تقاطع حجم النموذج مع التحيز والسامة. وأخيرًا، نناقش تطبيقات نماذج اللغة على سلامة الذكاء الاصطناعي وتخفيف الأضرار المحتملة في التطبيقات اللاحقة.