تم اختياره بعناية من قبل مهندسي أمازون، وهو ملخص لأكثر من 40 ورقة ماجستير في القانون

في عام 2023، لا يزال نموذج اللغة الكبير هو "صانع الموضوع"، سواء كان أوبن أيه آي سواء كان الأمر يتعلق بـ "دراما القتال في القصر" بين الشركات المصنعة الكبرى، أو "معركة الآلهة" بين النماذج والمنتجات الجديدة، أو التطور المزدهر للنماذج الكبيرة في الصناعة، فإن كل هذا يشير إلى أن نماذج اللغة الكبيرة لديها مجال كبير للتطور. رائحة الزهور تجذب الفراشات. تشات جي بي تي وبعد أن أصبحت هذه الشركات مشهورة بين عشية وضحاها، فإننا كثيراً ما نسمع أخباراً عن انضمام شخصيات بارزة من مختلف مناحي الحياة إلى اللعبة، وظهور شركات ناشئة ذات تمويل مختلف أو خلفيات تقنية مختلفة مثل الفطر بعد المطر.
من الواضح أن هذا المشهد الحيوي لن يهدأ بسهولة في عام 2024. فقد بدأت المزيد والمزيد من الشركات والصناعات التقليدية في استكشاف كيفية تطبيق نماذج اللغة الكبيرة على أعمالها الخاصة. وقد أدى الطلب المتزايد بسرعة في السوق أيضًا إلى مزيد من التعميق والابتكار في الأبحاث في المجالات ذات الصلة، وأصبحت تحديثات الأوراق البحثية على منصات مثل arXiv أكثر تواترا.
ومن بينها، ما هي الأوراق التي تستحق القراءة؟ ما هي نقاط المعرفة الكامنة وراء عناوين المقالات المعقدة؟
من أجل مساعدتك في استرجاع الأوراق ذات القيمة العالية بشكل أسرع،قام مهندس أمازون يوجين يان وآخرون بإنشاء قائمة قراءة لأوراق نموذج اللغة ويستمرون في مشاركة الأوراق المتطورة. لقد قاموا حاليًا بتجميع أكثر من 40 ورقة بحثية عالية الجودة.
رابط المجموعة:
https://eugeneyan.com/writing/llm-reading-list/
قم بمتابعة الحساب الرسمي ورد "LLM Papers" لتحميل مجموعة الأوراق.
ورقة رائدة في مجال المحولات
الاهتمام هو كل ما تحتاجه

*مؤلف:إيليا بولوسوكين، المؤسس المشارك لشركة NEAR (عضو سابق في فريق الذكاء الاصطناعي في Google) وآخرون
*إبداعي:https://arxiv.org/abs/1706.03762
تعتمد نماذج نقل التسلسل السائدة على تكوينات التشفير والفك للشبكات العصبية المعقدة المتكررة أو التلافيفية. وتقوم النماذج عالية الأداء أيضًا بربط المشفر وفك التشفير من خلال آلية الانتباه. اقترحت هذه الدراسة بنية شبكة بسيطة جديدة - Transformer، والتي تعتمد بشكل كامل على آلية الانتباه وتلغي تمامًا عملية تكوين الشبكة العصبية التكرارية والتلافيفية. تظهر التجارب على مهمتين للترجمة الآلية أن هذه النماذج تتمتع بجودة محسنة، ويمكن تنفيذها بالتوازي بشكل أكبر، وتتطلب وقت تدريب أقل بكثير.
GPT: تحسين فهم اللغة من خلال التدريب المسبق التوليدي
تحسين فهم اللغة من خلال التدريب المسبق التوليدي

*مؤلف:أوبن أيه آي
*إبداعي:https://cdn.openai.com/research-covers/language-ورقة فهم اللغة/غير خاضعة للإشراف.pdf
يشمل فهم اللغة الطبيعية مجموعة واسعة من المهام، مثل ربط النصوص، والإجابة على الأسئلة، وتقييم التشابه الدلالي. على الرغم من توفر مجموعات كبيرة من النصوص غير المصنفة، فإن البيانات المصنفة لتعلم هذه المهام المحددة محدودة، مما يجعل من الصعب على النماذج المدربة تمييزيًا أن تعمل بشكل مناسب. ردًا على ذلك، قاد إيليا باحثي OpenAI إلى اقتراح أن هذه الظاهرة يمكن تحسينها من خلال التدريب المسبق لنموذج اللغة على مجموعة نصية غنية غير مصنفة وإجراء ضبط دقيق تفاضلي على كل مهمة محددة. استخدم الباحثون تحويلات الإدخال الواعية للمهمة أثناء عملية الضبط الدقيق، الأمر الذي تطلب تعديلًا أقل لهندسة النموذج مع تحقيق التعلم الفعال للنقل.
تظهر النتائج التجريبية المقارنة للمهام العامة أن النموذج حقق تحسنًا في الأداء بمقدار 8.9% في التفكير السليم (اختبار القصص المغلقة)، و5.7% في الإجابة على الأسئلة (RACE)، و1.5% في ربط النص (MultiNLI).
BERT: تدريب مسبق للمحولات ثنائية الاتجاه العميقة لفهم اللغة
BERT: التدريب المسبق للمحولات ثنائية الاتجاه العميقة لفهم اللغة

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/1810.04805
واقترح الباحثون نموذجًا جديدًا لتمثيل اللغة، وهو BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات)، والذي يقوم بتدريب التمثيلات ثنائية الاتجاه العميقة مسبقًا من خلال أخذ السياق في الاعتبار في جميع الطبقات. ونتيجة لذلك، يمكن ضبط نماذج BERT المدربة مسبقًا عن طريق إضافة طبقة إخراج ببساطة، مما يؤدي إلى إنشاء نماذج متطورة لمهام متعددة مثل الإجابة على الأسئلة والتفكير اللغوي دون الحاجة إلى تعديلات مكثفة في بنية محددة للمهمة.
حققت BERT تحسينات كبيرة في 11 مهمة لمعالجة اللغة الطبيعية، بما في ذلك زيادة درجة GLUE إلى 80.5% (تحسن نسبي قدره 7.7%)، ودقة MultiNLI إلى 86.7% (تحسن نسبي قدره 4.6%)، واختبار الإجابة على الأسئلة SQuAD v1.1 F1 إلى 93.2 (تحسن نسبي قدره 1.5%)، واختبار SQuAD v2.0 F1 إلى 83.1 (تحسن نسبي قدره 5.1%).
T5: استكشاف حدود التعلم الانتقالي باستخدام محول نص إلى نص موحد
استكشاف حدود التعلم بالتحويل باستخدام محول نص إلى نص موحد

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/1910.10683
قام الباحثون باستكشاف تقنيات التعلم التحويلي لمعالجة اللغة الطبيعية من خلال تقديم إطار عمل موحد يحول جميع مشاكل اللغة القائمة على النص إلى تنسيق نص إلى نص. قارنت الدراسة أهداف ما قبل التدريب، والهندسة المعمارية، ومجموعات البيانات غير المصنفة، وطرق النقل، وعوامل أخرى عبر عشرات مهام فهم اللغة. من خلال الجمع بين النتائج المقارنة والتجريبية مع مجموعة Colossal Clean Crawled Corpus التي اقترحها الفريق حديثًا، حققت هذه الدراسة نتائج متطورة في معايير متعددة مثل التلخيص، والإجابة على الأسئلة، وتصنيف النصوص.
GPT2: نموذج اللغة هو متعلم متعدد المهام غير خاضع للإشراف
نماذج اللغة هي متعلمون متعددو المهام غير خاضعين للإشراف

*مؤلف:أوبن أيه آي
*إبداعي:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
يوضح البحث أن نماذج اللغة يمكنها تعلم مهام معالجة اللغة الطبيعية دون إشراف صريح عند تدريبها على مجموعة بيانات جديدة، WebText، تتكون من ملايين صفحات الويب. عند إعطاء المستند + شرط السؤال، تكون الإجابة التي تم إنشاؤها بواسطة نموذج اللغة هي كو كيو ايه تم تحقيق درجة F1 قدرها 55 على مجموعة البيانات، وهو ما يطابق أو يتجاوز 3 من 4 أنظمة أساسية مع عدم الحاجة إلى أكثر من 127000 مثال تدريبي. GPT-2 هو محول يحتوي على 1.5 مليار معلمة. في إعداد اللقطة الصفرية، حقق أفضل أداء في 7 من مجموعات بيانات النمذجة اللغوية الثمانية التي تم اختبارها، لكنه لا يزال غير متكيف بشكل كامل مع WebText.
GPT-3: نماذج اللغة عبارة عن متعلمين قليلين
نماذج اللغة هي متعلمين قليلي الخبرة

*مؤلف:مؤسس Anthropic داريو أمودي، والمؤسس المشارك لـ OpenAI إيليا سوتسكيفر، وآخرون
*إبداعي:https://arxiv.org/abs/2005.14165
قام الباحثون بتدريب نموذج اللغة الانحداري التلقائي، GPT-3، واختبار أداءه على عدد قليل من السيناريوهات. في جميع المهام، لا يقوم GPT-3 بإجراء أي تحديثات تدرجية أو ضبط دقيق، ويتم تحقيق المهام والعروض التوضيحية القليلة من خلال التفاعلات النصية مع النموذج فقط. يحقق GPT-3 أداءً جيدًا في معظم مجموعات بيانات معالجة اللغة الطبيعية، بما في ذلك الترجمة، والإجابة على الأسئلة، وبعض المهام التي تتطلب التفكير أثناء التنقل أو التكيف مع المجال، مثل فك تشفير الكلمات، أو استخدام كلمات جديدة في الجمل، أو إجراء عمليات حسابية مكونة من ثلاثة أرقام. وبالإضافة إلى ذلك، وجد الباحثون أن GPT-3 قادر على توليد مقالات إخبارية يصعب على البشر التمييز بينها.
قوانين التوسع لنماذج اللغة العصبية: تدريب نماذج أكبر على مجموعات بيانات أصغر
قوانين القياس لنماذج اللغة العصبية

*مؤلف:مؤسس Anthropic داريو أمودي وباحثو OpenAI
*إبداعي:https://arxiv.org/abs/2001.08361
قام الباحثون بدراسة مقياس أداء نموذج اللغة على فقدان الإنتروبيا المتقاطعة. يتناسب قانون القوة لمقاييس الخسارة مع حجم النموذج وحجم مجموعة البيانات وكمية الحوسبة المستخدمة للتدريب، مع بعض اتجاهات القياس التي تتجاوز 7 أوامر من حيث الحجم. يتم تحديد اعتماد الإفراط في التجهيز على حجم النموذج/مجموعة البيانات، واعتماد سرعة التدريب على حجم النموذج، من خلال معادلات بسيطة. وبناءً على ذلك، يقترح الباحثون أنه كلما كان النموذج أكبر، كلما كانت كفاءته في العينة أكبر، وبالتالي فإن التدريب على الكفاءة الحسابية المثلى يتطلب تدريب نماذج أكبر على كميات صغيرة نسبيًا من البيانات والتوقف بشكل عدواني قبل التقارب.
شينشيلا: تدريب نماذج اللغة الكبيرة بكفاءة حسابية مثالية
تدريب نماذج اللغة الكبيرة ذات الكفاءة الحوسبية المثلى

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/2203.15556
واقترح الباحثون أن حجم النموذج وعدد رموز التدريب يجب أن يزدادا بشكل متناسب، وتحققوا من هذه الفرضية من خلال تدريب نموذج شينشيلا، وهو نموذج حاسوبي فعال ومتوقع. يستخدم Chinchilla نفس قوة الحوسبة التي يستخدمها Gopher، ولكن بحجم معلمات يبلغ 7 مليارات و4 أضعاف كمية البيانات. يتفوق Chinchilla بشكل كبير على Gopher (280B)، وGPT-3 (175B)، وJurassic-1 (178B)، وMegatron-Turing NLG (530B) في مهام التقييم اللاحقة المختلفة. وهذا يعني أيضًا أن Chinchilla يستخدم موارد حوسبة أقل بكثير أثناء الضبط الدقيق والاستدلال، مما يسهل إلى حد كبير التطبيقات اللاحقة.
LLaMA: نموذج لغوي أساسي مفتوح وفعال
LLaMA: نماذج لغة أساسية مفتوحة وفعالة

*مؤلف:Guillaume Lample، المؤسس المشارك لشركة Mistral AI (عمل سابقًا في Meta AI) وآخرون
*إبداعي:https://arxiv.org/abs/2302.13971
LLaMA عبارة عن مجموعة من نماذج اللغة الأساسية ذات معلمات تتراوح من 7B إلى 65B. قام باحثو Meta AI بتدريب النموذج على تريليونات من الرموز، باستخدام مجموعات البيانات المتاحة للجمهور فقط وليس مجموعات البيانات الخاصة والتي لا يمكن الوصول إليها. يتفوق LLaMA-13B على GPT-3 (175B) في معظم المعايير، بينما يمكن مقارنة LLaMA-65B بـ Chinchilla-70B وPaLM-540B.
InstructGPT: تدريب نموذج لغوي على اتباع التعليمات من خلال ردود الفعل البشرية
تدريب نماذج اللغة على اتباع التعليمات باستخدام ردود الفعل البشرية

*مؤلف:أوبن أيه آي
*إبداعي:https://arxiv.org/abs/2203.02155
وأظهر الباحثون أن نماذج اللغة يمكن أن تتوافق مع نية المستخدم من خلال ضبطها بدقة باستخدام ردود الفعل البشرية على مجموعة متنوعة من المهام. أطلق الباحثون على النموذج الناتج اسم InstructGPT، وفي تقييم للتوزيع الفوري، تم تفضيل مخرجات نموذج 1.3B InstructGPT على مخرجات نموذج 175B GPT-3. بالإضافة إلى ذلك، تم أيضًا تحسين InstructGPT من حيث الواقعية وتقليل الناتج السام.
لورا:التكيف منخفض الرتبة لنماذج اللغة الكبيرة
LoRA: التكيف منخفض الرتبة لنماذج اللغة الكبيرة

*مؤلف:مايكروسوفت
*إبداعي:https://arxiv.org/abs/2106.09685
اقترح باحثو Microsoft تقنية LoRA (التكيف مع الرتبة المنخفضة)، والتي تعمل على تجميد أوزان النموذج المدرب مسبقًا وتحقن مصفوفة تحليل الرتبة القابلة للتدريب في كل طبقة من بنية Transformer، مما يقلل بشكل كبير من عدد المعلمات القابلة للتدريب للمهام اللاحقة. بالمقارنة مع GPT-3 175B الذي تم ضبطه بدقة باستخدام Adam، يمكن لـ LoRA تقليل عدد المعلمات القابلة للتدريب بمقدار 10000 مرة ومتطلبات ذاكرة وحدة معالجة الرسومات بمقدار 3 مرات.
QLoRA: الضبط الدقيق الفعال لنماذج اللغة الكبيرة المكممة
QLoRA: الضبط الدقيق الفعال لـ LLMs الكمية

*مؤلف:باحثون في جامعة واشنطن
*إبداعي:https://arxiv.org/abs/2305.14314
QLoRA هي طريقة ضبط دقيقة فعالة يمكنها تقليل استخدام الذاكرة وضبط نموذج معلمات 65B على وحدة معالجة رسومية واحدة بسعة 48 جيجابايت مع الحفاظ على أداء مهمة الضبط الدقيق الكامل بدقة 16 بت. يقوم QLoRA بانتشار التدرجات إلى LoRA من خلال نموذج لغوي مُدرَّب مسبقًا ومُكمَّم مكون من 4 بتات. قام الباحثون بتسمية النموذج الأفضل أداءً استنادًا إلى QLoRA Guanaco، والذي تفوق على جميع النماذج التي تم إصدارها علنًا سابقًا في معيار Vicuna، ووصل إلى مستوى الأداء ChatGPT 99.3%، بينما لم يتطلب سوى 24 ساعة من الضبط الدقيق على وحدة معالجة رسومية واحدة.
DPR: استرجاع المقطع الكثيف للإجابة على أسئلة المجال المفتوح
استرجاع المقطع الكثيف للإجابة على أسئلة المجال المفتوح

*مؤلف:معرض في ميتا
*إبداعي:https://arxiv.org/abs/2004.04906
في هذا العمل، أظهر الباحثون كيفية تحقيق الاسترجاع باستخدام التمثيلات الكثيفة فقط، أي تعلم التضمينات من عدد صغير من الأسئلة والفقرات من خلال إطار عمل بسيط ثنائي الترميز. عند تقييمه على مجموعة بيانات واسعة النطاق للإجابة على الأسئلة، يحقق المسترد تحسنًا بمقدار 9%-19% على Lucene-BM25 في دقة استرجاع الفقرة العشرين الأولى.
RAG: توليد معزز بالاسترجاع لمهام معالجة اللغة الطبيعية كثيفة المعرفة
توليد معزز بالاسترجاع لمهام معالجة اللغة الطبيعية كثيفة المعرفة

*مؤلف:باحثون من ميتا، وجامعة كلية لندن، وجامعة كلية لندن
*إبداعي:https://arxiv.org/abs/2005.11401
واقترح الباحثون طريقة ضبط عامة تسمى RAG (التوليد المعزز بالاسترجاع)، والتي تجمع بين المعلمات المدربة مسبقًا وغير المعلمات لتوليد اللغة. تقدم هذه الدراسة نموذج RAG، حيث تكون ذاكرة المعلمات عبارة عن نموذج seq2seq مدرب مسبقًا والذاكرة غير المعلمية هي مؤشر المتجه الكثيف (DPR) من ويكيبيديا، والذي يمكن الوصول إليه من خلال مسترجع عصبي مدرب مسبقًا. قام الباحثون بمقارنة مخططين RAG، أحدهما يعتمد على نفس الفقرة المسترجعة خلال التسلسل الناتج والآخر يعتمد على فقرة مختلفة لكل رمز. في مهمة توليد اللغة، وجد الباحثون أن اللغة التي تم إنشاؤها بواسطة نموذج RAG كانت أكثر تحديدًا وتنوعًا وواقعية من اللغة التي تم إنشاؤها بواسطة نموذج خط الأساس seq2seq المعياري المتطور.
RETRO: تحسين أداء نموذج اللغة من خلال الاسترجاع من تريليونات الرموز
تحسين نماذج اللغة من خلال الاسترجاع من تريليونات الرموز

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/2112.04426
يحقق المحول المعزز بالاسترجاع (RETRO)، الذي يحتوي على قاعدة بيانات تحتوي على 2 تريليون علامة، أداءً مماثلاً على Pile على الرغم من استخدام معلمات أقل بمقدار 25 مرة من GPT-3 وJurassic-1. يجمع RETRO بين جهاز استرداد BERT المجمد، ومشفر قابل للتفاضل، وآلية الاهتمام المتبادل على مستوى الكتلة للتنبؤ بالعلامات استنادًا إلى حجم بيانات أكبر بكثير من تلك المستهلكة أثناء التدريب.
بناء نماذج لغوية معززة بالإنترنت مع عدد صغير من المطالبات للإجابة على الأسئلة ذات النطاق المفتوح
نماذج اللغة المعززة بالإنترنت من خلال المطالبة القصيرة للإجابة على الأسئلة في المجال المفتوح

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/2203.05115
تهدف هذه الدراسة إلى الاستفادة من قدرة نماذج اللغة واسعة النطاق (LSLMs) الفريدة على الاستجابة للمطالبات الصغيرة للتغلب على التحديات التي تواجهها في كونها مبنية على الحقائق وحديثة. وجد الباحثون أن نماذج اللغة المعتمدة على الشبكات تتفوق على نماذج الكتاب المغلق ذات الحجم المماثل أو الأكبر في الإجابة على الأسئلة في المجال المفتوح. بالإضافة إلى ذلك، من خلال إنشاء إجابات متعددة باستخدام أدلة استرجاع متعددة ثم إعادة ترتيبها باستخدام الدرجات التي تم إنشاؤها بواسطة نفس LMs، يمكن تحسين وقت حساب الاستدلال للنموذج، وبالتالي تحسين الأداء وتخفيف مشكلة الأداء المنخفض لعدد صغير من LMs.
HyDE: استرجاع كثيف بدون لقطة بدون تسميات ذات صلة
استرجاع دقيق وكثيف بدون تسميات ذات صلة

*مؤلف:باحثون من جامعة كارنيجي ميلون وجامعة واترلو
*إبداعي:https://arxiv.org/abs/2212.10496
في هذه التجربة، يقوم HyDE (التضمينات الافتراضية للمستندات) أولاً بإرشاد نموذج لغة يتبع التعليمات (على سبيل المثال، InstructGPT) لتوليد مستند افتراضي بطريقة صفرية. تلتقط هذه الوثيقة أنماط الارتباط ولكنها خيالية وقد تحتوي على تفاصيل خاطئة. بعد ذلك، يقوم برنامج ترميز باستخدام التعلم التبايني غير الخاضع للإشراف (على سبيل المثال، Contriever) بترميز المستندات في متجهات تضمين. يقوم هذا المتجه بتحديد حي في مساحة تضمين النص حيث يتم استرداد مستندات حقيقية مماثلة استنادًا إلى تشابه المتجه. تثبت التجارب أن HyDE يتفوق بشكل كبير على جهاز الاسترداد الكثيف غير الخاضع للإشراف Contriever عبر مجموعة متنوعة من المهام واللغات، ويظهر أداءً قويًا يمكن مقارنته بأجهزة الاسترداد الدقيقة.
FlashAttention: خوارزمية انتباه دقيقة مع وعي الإدخال/الإخراج
FlashAttention: انتباه دقيق سريع وفعال للذاكرة مع IO-Awareness

*مؤلف:باحثون من جامعة ستانفورد وجامعة ولاية نيويورك
*إبداعي:https://arxiv.org/abs/2205.14135
FlashAttention هي خوارزمية انتباه دقيقة تدرك الإدخال/الإخراج وتستخدم التبليط لتقليل عدد عمليات قراءة وكتابة الذاكرة بين ذاكرة النطاق الترددي العالي (HBM) لوحدة معالجة الرسومات (GPU) وذاكرة SRAM الموجودة على شريحة وحدة معالجة الرسومات (GPU). يتيح FlashAttention وBlock-Sparse FlashAttention سياقات أطول في Transformers، مما يؤدي إلى نماذج ذات جودة أعلى وميزات مبتكرة.
تحيز خطي للانتباه لتحقيق استقراء طول الإدخال
تدريب قصير واختبار طويل: الاهتمام بالتحيزات الخطية يمكّن من استقراء طول الإدخال

*مؤلف:فرق بحثية من جامعة واشنطن، FAIR، وغيرها.
*إبداعي:https://arxiv.org/abs/2108.12409
اقترح الباحثون طريقة أبسط وأكثر كفاءة لتمثيل الموضع - ALiBi (الانتباه مع الانحيازات الخطية)، والتي يمكنها تدريب نموذج يحتوي على 1.3 مليار معلمة على تسلسل إدخال بطول 1024 ويمكنها استنتاج تسلسل إدخال بطول 2048. يحقق هذا الأسلوب نفس أداء نموذج تضمين الموضع الجيبي المُدرّب على تسلسل إدخال بطول 2048، ولكنه أسرع بمقدار 11% في التدريب ويستخدم ذاكرة أقل بمقدار 11%.
Codex: تقييم نماذج اللغات الكبيرة المُدرَّبة على الكود
تقييم نماذج اللغة الكبيرة المُدرَّبة على الكود

*مؤلف:أوبن أيه آي
*إبداعي:https://arxiv.org/abs/2107.03374
قام الباحثون بتقديم نموذج لغة GPT Codex، والذي تم ضبطه بناءً على الكود العام لـ GitHub، ودرسوا قدراته في كتابة الكود بلغة Python. وفي الوقت نفسه، أصدر الباحثون أيضًا مجموعة تقييم جديدة تدعى HumanEval، والتي تُستخدم لقياس مدى صحة الوظائف للبرامج التي تم تصنيعها من نصوص المستندات. في مجموعة التقييم هذه، حل Codex 28.8% من المشاكل، بينما حل GPT-3 0% وحل GPT-J 11.4%.
تطبيع الطبقة
تطبيع الطبقة

*مؤلف:باحثون في جامعة تورنتو
*إبداعي:https://arxiv.org/abs/1607.06450
قام الباحثون بتحويل التطبيع الدفعي إلى تطبيع طبقي، أي أنه في عينة تدريب واحدة، يتم تحقيق التطبيع عن طريق حساب المتوسط والتباين لمجموع كل مدخلات الخلايا العصبية في الطبقة. على عكس التطبيع الدفعي، يقوم التطبيع الطبقي بإجراء نفس العمليات الحسابية تمامًا في وقت التدريب والاختبار. لقد أظهرنا تجريبياً أن تطبيع الطبقة يمكن أن يقلل بشكل كبير من وقت التدريب مقارنة بالتقنيات المنشورة سابقًا.
تطبيع الطبقة في بنية المحول
حول تطبيع الطبقة في بنية المحول

*مؤلف:مايكروسوفت
*إبداعي:https://arxiv.org/abs/2002.04745
استخدم الباحثون نظرية المجال المتوسط لإثبات أنه في مرحلة التهيئة، بالنسبة لمحول ما بعد LN المصمم أصلاً، فإن التدرج المتوقع للمعلمات بالقرب من طبقة الإخراج كبير، واستخدام معدل تعليم مرتفع بناءً على ذلك سيجعل التدريب غير مستقر. بالإضافة إلى ذلك، إذا تم وضع تطبيع الطبقة في محول ما بعد LN، فإن التدرجات تتصرف بشكل جيد عند التهيئة. أظهرت الدراسات أن Pre-LN Transforme مع إزالة مرحلة الإحماء يمكن أن يحقق نتائج مماثلة للنتائج الأساسية في التطبيقات العملية مع تقليل وقت التدريب وضبط المعلمات الفائقة.
PPO: خوارزمية تحسين السياسة القريبة
خوارزميات تحسين السياسة القريبة

*مؤلف:أوبن أيه آي
*إبداعي:https://arxiv.org/abs/1707.06347
إن PPO (تحسين السياسة القريبة) الذي اقترحه الباحثون له مزايا مماثلة لـ TRPO (تحسين سياسة منطقة الصدأ)، ولكنه أبسط وأكثر عمومية ولديه تعقيد أفضل للعينة. قام الباحثون باختبار PPO على مجموعة من مهام القياس وأظهروا أن PPO يتفوق على طرق تدرج السياسة الأخرى عبر الإنترنت ويحقق عمومًا توازنًا جيدًا بين تعقيد العينة والبساطة ووقت الجدار.
معالج المبرمج:استخدام Evol-Instruct لتعزيز قدرة نماذج اللغات الكبيرة على الترميز
WizardCoder: تمكين نماذج لغات البرمجة الكبيرة باستخدام Evol-Instruct

*مؤلف:باحثون من مايكروسوفت وجامعة هونج كونج المعمدانية
*إبداعي:https://arxiv.org/abs/2306.08568
يتيح برنامج WizardCoder الذي اقترحه الباحثون لـ Code LLM القدرة على ضبط التعليمات المعقدة عن طريق ضبط طريقة Evol-Instruct على نطاق الكود. تظهر التجارب على أربعة معايير لتوليد التعليمات البرمجية، HumanEval، وHumanEval+، وMBPP، وDS-1000، أن WizardCoder يتفوق بشكل كبير على جميع برامج Code LLM مفتوحة المصدر الأخرى. علاوة على ذلك، في HumanEval و HumanEval+، يتفوق WizardCoder حتى على Claude من Anthropic و Bard من Google.
اللاما 2: نماذج دردشة مفتوحة المصدر ومُحسّنة
اللاما 2: الأساس المفتوح ونماذج الدردشة الدقيقة

*مؤلف:GenAI، ميتا
*إبداعي:https://arxiv.org/abs/2307.09288
Llama 2 عبارة عن مجموعة من نماذج اللغة الكبيرة المدربة مسبقًا والمضبوطة بدقة والتي يتراوح حجمها من 7 مليار إلى 70 مليار معلمة. تم تطوير برنامج Llama 2-Chat الذي طوره الباحثون خصيصًا لتطبيقات المحادثة. تتناول الورقة البحثية بالتفصيل كيف قام الباحثون بضبط وتحسين أمان Llama 2-Chat.
RWKV: إعادة تعريف الشبكات العصبية المتكررة لعصر المحولات
RWKV: إعادة اختراع الشبكات العصبية المتكررة لعصر المحولات

*مؤلف:EleutherAI، جامعة برشلونة وفرق بحثية أخرى
*إبداعي:https://arxiv.org/abs/2305.13048
واقترح الباحثون نموذجًا معماريًا جديدًا يسمى قيمة المفتاح المرجحة بالاستقبال (RWKV)، والذي يجمع بين التدريب المتوازي الفعال لـ Transformer والاستدلال الفعال لـ RNN. تستخدم هذه الطريقة آلية الاهتمام الخطي ويمكنها صياغة النموذج كمحول أو شبكة عصبية متكررة، وبالتالي موازاة الحساب أثناء التدريب والحفاظ على الحساب الثابت وتعقيد الذاكرة أثناء الاستدلال. قام الباحثون بتوسيع النموذج إلى 14 مليار معلمة، مما يجعله أكبر نموذج RNN كثيف حتى الآن.
RLAIF: ملاحظات الذكاء الاصطناعي غير الضارة
الذكاء الاصطناعي الدستوري: عدم الضرر من ردود فعل الذكاء الاصطناعي

*مؤلف:أنثروبي
*إبداعي:https://arxiv.org/abs/2212.08073
يحاول الباحثون تدريب مساعد الذكاء الاصطناعي من خلال التحسين الذاتي، وهو النهج الذي يطلقون عليه الذكاء الاصطناعي الدستوري. تتضمن عملية التدريب مرحلتين: التعلم الخاضع للإشراف والتعلم المعزز. في مرحلة التعلم الخاضع للإشراف، أخذ الباحثون عينات من النموذج الأولي، ثم قاموا بإنشاء انتقادات ذاتية ومراجعات، وأخيرًا قاموا بضبط النموذج الأصلي على الاستجابات المنقحة.
خلال مرحلة التعلم التعزيزي، يقوم الباحثون بأخذ عينات من النموذج المضبوط بدقة، ويستخدمون النموذج لتقييم أي من العينتين أفضل، ثم يقومون بتدريب نموذج التفضيل من مجموعة البيانات المفضلة للذكاء الاصطناعي. ثم استخدم الباحثون نموذج التفضيل كإشارة مكافأة لتدريب التعلم التعزيزي، باستخدام التعلم التعزيزي من ردود الفعل الذكية (RLAIF).
الشبكات العصبية واسعة النطاق جدًا
شبكات عصبية ضخمة بشكل فاحش: طبقة مزيج الخبراء ذات البوابات المتناثرة

*مؤلف:Google Brain (تم دمجه مع DeepMind)
*إبداعي:https://arxiv.org/abs/1701.06538
قام الباحثون بتقديم MoE (مزيج من الخبراء) متباعد البوابات ويتكون من ما يصل إلى آلاف من شبكات التغذية الأمامية الفرعية، وطبقوا MoE على مهام نمذجة اللغة والترجمة الآلية. في هذه المهام، تعتبر قدرة النموذج أمرًا بالغ الأهمية لاستيعاب كمية كبيرة من المعرفة الموجودة في مجموعة التدريب. واقترح الباحثون نموذجًا معماريًا يتم فيه تطبيق MoE مع ما يصل إلى 137 مليار معلمة بشكل التفافي بين طبقات LSTM المكدسة. وفي معايير نمذجة اللغة الكبيرة والترجمة الآلية، يتفوق النموذج بشكل كبير على أحدث التقنيات بتكلفة حسابية أقل.
CLIP: تعلم نماذج الرؤية القابلة للتحويل من خلال الإشراف على اللغة الطبيعية
تعلم النماذج البصرية القابلة للنقل من خلال الإشراف على اللغة الطبيعية

*مؤلف:أوبن أيه آي
*إبداعي:https://arxiv.org/abs/2103.00020
نقترح مهمة تدريب مسبقة للتنبؤ بالتسمية التوضيحية التي تتناسب مع كل صورة كطريقة فعالة وقابلة للتطوير لتعلم تمثيلات الصور الحديثة من الصفر. استخدمت الدراسة مجموعة بيانات مكونة من 400 مليون زوج من الصور والنصوص التي تم جمعها من الإنترنت. بعد التدريب المسبق، يتم استخدام اللغة الطبيعية للإشارة إلى المفاهيم المرئية المكتسبة (أو وصف مفاهيم جديدة)، مما يتيح نقل النماذج إلى المهام اللاحقة دون أي تأخير.
ViT: محول للتعرف على الصور على نطاق واسع
الصورة تساوي 16×16 كلمة: محولات للتعرف على الصور على نطاق واسع

*مؤلف:فريق أبحاث جوجل، فريق الدماغ (تم دمجه مع DeepMind)
*إبداعي:https://arxiv.org/abs/2010.11929
عادةً ما يكون تطبيق عمليات الالتفاف مصحوبًا بحدود الهياكل العالمية والتبعيات طويلة المدى، وبالتالي يتطلب المزيد من المعلمات والشبكات العميقة لمعالجة هذه المشكلات. واقترح الباحثون نموذجًا للتعرف على الصور يعتمد بالكامل على Transformer، يسمى ViT (Vision Transformer)، والذي يتبنى الفكرة الأساسية لـ Transformer ويمكنه التقاط معلومات عالمية.
الوكلاء المولدون: محاكاة تفاعلية للسلوك البشري
العوامل المُولِّدة: مُحاكيات تفاعلية للسلوك البشري

*مؤلف:جامعة ستانفورد، باحثو Google DeepMind
*إبداعي:https://arxiv.org/abs/2304.03442
ولبناء وكلاء مولدين، اقترح الباحثون بنية تمتد إلى نموذج لغوي كبير لتخزين السجل الكامل لتجربة الوكيل باستخدام اللغة الطبيعية، وتركيب هذه الذكريات تدريجيًا في انعكاسات ذات مستوى أعلى، واسترجاعها بشكل ديناميكي للتخطيط للسلوك. قدمت هذه الدراسة أنماط الهندسة المعمارية والتفاعل من خلال دمج نماذج اللغة الكبيرة مع الحوسبة والوكلاء التفاعليين، وحققت محاكاة للسلوك البشري الموثوق.
DPO: خوارزمية تحسين التفضيل المباشر
تحسين التفضيل المباشر: نموذج اللغة الخاص بك هو في الواقع نموذج مكافأة

*مؤلف:باحثون من جامعة ستانفورد
*إبداعي:https://arxiv.org/abs/2305.18290
إن خوارزمية تحسين التفضيل المباشر (DPO) التي اقترحها الباحثون مستقرة وفعالة وخفيفة الوزن حسابيًا، دون الحاجة إلى ملاءمة نموذج المكافأة، أو أخذ عينة من LM أثناء الضبط الدقيق، أو إجراء تعديلات كبيرة على المعلمات الفائقة. تظهر التجارب أن DPO يمكنه ضبط الآلات الحاسبة لتكون متوافقة مع التفضيلات البشرية. تظهر التجارب أن الضبط الدقيق باستخدام DPO يتفوق على RLHF (التعلم التعزيزي من ردود الفعل البشرية) في التحكم في المشاعر الناتجة.
نموذج الاتساق
نماذج الاتساق

*مؤلف:أوبن أيه آي
*إبداعي:https://arxiv.org/abs/2303.01469
نموذج الاتساق المقترح في هذه الدراسة هو نموذج جديد يقوم بإنشاء عينات عالية الجودة عن طريق ربط الضوضاء بالبيانات بشكل مباشر. إنه يدعم إنشاء سريع بخطوة واحدة، ويمكنه أيضًا استخدام أخذ العينات متعدد الخطوات لموازنة الحساب وجودة العينة. يتيح النموذج أيضًا تحرير البيانات بدون لقطة مثل تلوين الصورة وإضفاء الدقة الفائقة دون الحاجة إلى تدريب صريح على هذه المهام.
نموذج الاتساق المحتمل
نماذج الاتساق الكامن: تجميع صور عالية الدقة باستخدام الاستدلال بخطوات قليلة

*مؤلف:باحثون من جامعة تسينغهوا
*إبداعي:https://arxiv.org/abs/2310.04378
واقترح الباحثون نماذج الاتساق الكامن (LCMs)، والتي يمكنها إجراء استدلال سريع في أقل عدد من الخطوات على أي نماذج انتشار كامن مدربة مسبقًا (LDMs)، بما في ذلك الانتشار المستقر (Rombach et al.). تظهر النتائج التجريبية أنه من خلال الاستخراج بكفاءة من نموذج انتشار موجه خالٍ من المصنف تم تدريبه مسبقًا، فإن LCM عالي الجودة 768 × 768 من 2 إلى 4 خطوات يتطلب 32 ساعة فقط من التدريب على وحدة معالجة الرسوميات A100.
LCM-LoRA: وحدة تسريع الانتشار المستقرة العالمية
LCM-LoRA: وحدة تسريع الانتشار المستقر العالمي

*مؤلف:جامعة تسينغهوا، وجه العناق
*إبداعي:https://arxiv.org/abs/2311.05556
تعمل هذه الدراسة على توسيع إمكانات LCMs بشكل أكبر. أولاً، من خلال تطبيق LoRA على نماذج الانتشار المستقر بما في ذلك SD-V1.5 وSSD-1B وSDXL، قام الباحثون بتوسيع نطاق LCM إلى نماذج كبيرة ذات استهلاك أقل للذاكرة وحققوا جودة فائقة لإنشاء الصور. ثانياً، حدد الباحثون معلمات LoRA التي تم الحصول عليها عن طريق تقطير LCM كوحدة تسريع انتشار مستقر عامة وأطلقوا عليها اسم LCM-LoRA. يمكن توصيل LCM-LoRA مباشرة بنماذج Stable-Diffusion أو LoRAs المتنوعة المضبوطة بدقة دون الحاجة إلى تدريب، وبالتالي يمثل مسرعًا عامًا لمهام إنشاء الصور المتنوعة.
سلسلة الملاحظات: تحسين قوة نماذج اللغة المعززة بالاسترجاع
سلسلة الملاحظات: تعزيز المتانة في نماذج اللغة المعززة بالاسترجاع

*مؤلف:مختبر تينسنت للذكاء الاصطناعي
*إبداعي:https://arxiv.org/abs/2311.09210
يمكن لسلسلة الملاحظات (CoN) التي اقترحها الباحثون تحسين قوة نموذج اللغة المعزز بالاسترجاع (RALM) في مواجهة المستندات غير ذات الصلة والضجيج وفي التعامل مع السيناريوهات غير المعروفة. يتمكن CoN من إنشاء تعليقات قراءة متسلسلة للمستندات المسترجعة لتقييم مدى ملاءمتها لسؤال معين ودمج هذه المعلومات في عملية صياغة الإجابة النهائية.
القدرات الناشئة لنماذج اللغة الكبيرة
القدرات الناشئة في نماذج اللغة الكبيرة

*مؤلف:أبحاث جوجل، جامعة ستانفورد، جامعة نورث كارولينا، ديب مايند
*إبداعي:https://arxiv.org/abs/2206.07682
واقترح الباحثون قدرات ناشئة في نماذج اللغة الكبيرة، وعرفوها بأنها قدرات غائبة في النماذج الأصغر ولكنها موجودة في النماذج الكبيرة، ويتم قياسها من خلال كمية حسابات التدريب وعدد معلمات النموذج.
Q-Transformer: التعلم التعزيزي القابل للتطوير دون اتصال بالإنترنت من خلال وظائف Q الانحدارية التلقائية
Q-Transformer: التعلم التعزيزي القابل للتطوير دون اتصال بالإنترنت من خلال وظائف Q الانحدارية التلقائية

*مؤلف:جوجل ديب مايند
*إبداعي:https://arxiv.org/abs/2309.10150
واقترح الباحثون طريقة التعلم التعزيزي القابلة للتطوير، Q-Transformer، لتدريب سياسات متعددة المهام يمكنها الاستفادة من المظاهرات البشرية والبيانات التي يتم جمعها بشكل مستقل من مجموعات بيانات غير متصلة بالإنترنت واسعة النطاق. تستخدم الطريقة Transformer لتوفير تمثيل قابل للتطوير لوظيفة Q ويتم تدريبها عبر النسخ الاحتياطي لفارق التوقيت دون اتصال بالإنترنت.
حارس اللاما
حارس اللاما: حماية المدخلات والمخرجات القائمة على نظام إدارة التعليم (LLM) للمحادثات بين الإنسان والذكاء الاصطناعي

*مؤلف:ميتا جين ايه آي
*إبداعي:https://arxiv.org/abs/2312.06674
Llama Guard هو نموذج حماية للإدخال والإخراج يعتمد على LLM ويتم ضبطه بناءً على نموذج Llama2-7b في مجموعة البيانات التي تم جمعها بواسطة Meta. وعلى الرغم من كمية البيانات الصغيرة، فإنه يعمل بشكل جيد في معايير التقييم الحالية مثل مجموعة بيانات تقييم الاعتدال OpenAI وToxicChat، كما أن أدائه يتطابق أو يتفوق على أدوات مراجعة المحتوى المتاحة حاليًا.
ReSTEM: ما وراء البيانات البشرية
ما وراء البيانات البشرية: توسيع نطاق التدريب الذاتي لحل المشكلات باستخدام نماذج اللغة

*مؤلف:جوجل ديب مايند، ميلا
*إبداعي:https://arxiv.org/abs/2312.06585
واقترح الباحثون طريقة تدريب ذاتية تعتمد على تعظيم التوقعات، تسمى ReSTEM، والتي تقوم بإنشاء عينات من النموذج وتصفيتها باستخدام التغذية الراجعة الثنائية، ثم تقوم بضبط هذه العينات وتكرر العملية عدة مرات. عند استخدام نموذج PaLM-2 على معايير الاستدلال MATH وترميز APPS، وجد الباحثون أن أداء ReSTEM يتناسب مع حجم النموذج ويتفوق بشكل كبير على طرق الضبط الدقيق على البيانات البشرية.
نماذج الخبراء المختلطة

*مصدر:وجه العناق
*إبداعي:https://huggingface.co/blog/moe
SPIN: يعمل الضبط الدقيق للعبة الذاتية على تحويل نماذج اللغة الضعيفة إلى نماذج لغوية قوية
الضبط الدقيق للتشغيل الذاتي يحول نماذج اللغة الضعيفة إلى نماذج لغة قوية

*مؤلف:باحثون من جامعة كاليفورنيا، وجامعة تسينغهوا، وجامعة كاليفورنيا
*إبداعي:https://arxiv.org/abs/2401.01335
واقترح الباحثون طريقة جديدة للضبط الدقيق تسمى الضبط الدقيق للعب الذاتي (SPIN)، وجوهرها هو آلية اللعب الذاتي. يقوم نموذج اللغة بتوليد بيانات التدريب من تكراره السابق ويواصل تعديل استراتيجيته من خلال التمييز بين هذه الاستجابات المولدة ذاتيًا والاستجابات التي تم الحصول عليها من البيانات التي شرحها الإنسان.
التعليم الذاتي: محاذاة نماذج اللغة مع لغة التعليمات المولدة تلقائيًا
التعليم الذاتي: مواءمة نماذج اللغة مع التعليمات المُولَّدة ذاتيًا

*مؤلف:جامعة واشنطن، الخ.
*إبداعي:https://arxiv.org/abs/2212.10560
يمكن لـ Self-Instruct، الذي اقترحه الباحثون، الاستفادة من المحتوى الذي تم إنشاؤه بواسطة نموذج اللغة المدرب مسبقًا لتحسين قدرته على اتباع التعليمات. قام الباحثون بإنشاء عينات التوجيه والمدخلات والمخرجات من نموذج اللغة. قم بتصفية العينات غير الصالحة أو المماثلة قبل استخدامها لضبط النموذج الأصلي. قام الباحثون بتطبيق الطريقة على GPT-3 وتأكدوا من صحتها على Super-NaturalInstructions. أظهرت النتائج تحسنًا في 33% مقارنة بالنموذج الأصلي، وهو ما يضاهي أداء InstructGPT-001 المدرب ببيانات المستخدم الخاصة والتعليقات التوضيحية اليدوية.
قم بمتابعة الحساب الرسمي ورد "LLM Papers" لتحميل مجموعة الأوراق.
مراجع: