الملخص

يتجه نموذج التدريب الخاص بالنماذج اللغوية الكبيرة (LLMs) من استخدام المجموعات الثابتة من البيانات نحو تعلم مبني على الخبرة، حيث يكتسب الوكلاء المهارات من خلال التفاعل مع بيئات معقدة. ولتسهيل هذه المحطة الانتقالية، نقدّم GEM (مُصنّع الخبرات العام)، وهو مُحاكي بيئات مفتوح المصدر مُصمم لعصر النماذج اللغوية الكبيرة. يشبه GEM منصة OpenAI-Gym في التعلم المعزز التقليدي (RL)، حيث يوفّر إطارًا معياريًا لواجهة التفاعل بين الوكيل والبيئة، بما في ذلك تنفيذ مُتعدد المتجهات غير المتزامن لتحقيق كفاءة عالية في المعالجة، وواجهات مرنة تُسهّل التوسع والتطوير. كما يمتاز GEM بتشكّل متنوع من البيئات، وأدوات متكاملة قوية، ونصوص مثالية من ملف واحد تُظهر كيفية استخدام GEM مع خمسة إطارات شائعة لتدريب التعلم المعزز. بالإضافة إلى ذلك، نقدّم مجموعة من الخطوط المرجعية (baselines) عبر 24 بيئة باستخدام خوارزمية REINFORCE مع تطبيع الدفعات حسب العائد (ReBN)، والتي – على عكس GRPO – تتوافق مع الإطار الكامل للتعلم المعزز المتمثل في المكافآت الكثيفة لكل جولة، وتوفر توزيعًا أفضل للمسؤولية (credit assignment). ونقوم أيضًا بإجراء مقارنة مباشرة بين خوارزميات PPO وGRPO وREINFORCE في بيئة مفردة ومتعددة الجولات باستخدام GEM، للكشف عن تفاصيل التصميم الخوارزمي. وأخيرًا، يُعدّ GEM أداة تقييم مريحة إلى جانب كونه بيئة تدريب. نأمل أن يُسهم هذا الإطار في تسريع الأبحاث المستقبلية المتعلقة بالنماذج اللغوية الكبيرة الوكيلية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

GEM: حديقة ألعاب للنماذج اللغوية الواعية

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GEM: حديقة ألعاب للنماذج اللغوية الواعية

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GEM: حديقة ألعاب للنماذج اللغوية الواعية

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan

Zichen Liu Anya Sims Keyu Duan Changyu Chen Simon Yu Xiangxin Zhou Haotian Xu Shaopan Xiong Bo Liu Chenmien Tan