HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

GEM: حديقة ألعاب للنماذج اللغوية الواعية

GEM: حديقة ألعاب للنماذج اللغوية الواعية

الملخص

يتجه نموذج التدريب الخاص بالنماذج اللغوية الكبيرة (LLMs) من استخدام المجموعات الثابتة من البيانات نحو تعلم مبني على الخبرة، حيث يكتسب الوكلاء المهارات من خلال التفاعل مع بيئات معقدة. ولتسهيل هذه المحطة الانتقالية، نقدّم GEM (مُصنّع الخبرات العام)، وهو مُحاكي بيئات مفتوح المصدر مُصمم لعصر النماذج اللغوية الكبيرة. يشبه GEM منصة OpenAI-Gym في التعلم المعزز التقليدي (RL)، حيث يوفّر إطارًا معياريًا لواجهة التفاعل بين الوكيل والبيئة، بما في ذلك تنفيذ مُتعدد المتجهات غير المتزامن لتحقيق كفاءة عالية في المعالجة، وواجهات مرنة تُسهّل التوسع والتطوير. كما يمتاز GEM بتشكّل متنوع من البيئات، وأدوات متكاملة قوية، ونصوص مثالية من ملف واحد تُظهر كيفية استخدام GEM مع خمسة إطارات شائعة لتدريب التعلم المعزز. بالإضافة إلى ذلك، نقدّم مجموعة من الخطوط المرجعية (baselines) عبر 24 بيئة باستخدام خوارزمية REINFORCE مع تطبيع الدفعات حسب العائد (ReBN)، والتي – على عكس GRPO – تتوافق مع الإطار الكامل للتعلم المعزز المتمثل في المكافآت الكثيفة لكل جولة، وتوفر توزيعًا أفضل للمسؤولية (credit assignment). ونقوم أيضًا بإجراء مقارنة مباشرة بين خوارزميات PPO وGRPO وREINFORCE في بيئة مفردة ومتعددة الجولات باستخدام GEM، للكشف عن تفاصيل التصميم الخوارزمي. وأخيرًا، يُعدّ GEM أداة تقييم مريحة إلى جانب كونه بيئة تدريب. نأمل أن يُسهم هذا الإطار في تسريع الأبحاث المستقبلية المتعلقة بالنماذج اللغوية الكبيرة الوكيلية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GEM: حديقة ألعاب للنماذج اللغوية الواعية | الأوراق البحثية | HyperAI