HyperAIHyperAI

Command Palette

Search for a command to run...

ComputerRL: توسيع التعلم المعزز المباشر عبر الإنترنت من البداية إلى النهاية لوكالات استخدام الحاسوب

Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al

الملخص

نقدّم "ComputerRL"، وهي إطار عمل للذكاء الذاتي على سطح المكتب، يمكّن الوكلاء من أداء المهام المعقدة في بيئات رقمية متعددة بمهارة. يتميز إطار ComputerRL بمنهجه المُسمّى "واجهة برمجة التطبيقات-واجهة المستخدم الرسومية" (API-GUI)، والذي يوحّد بين استدعاءات واجهة برمجة التطبيقات البرمجية والتفاعل المباشر مع واجهة المستخدم الرسومية، بهدف معالجة الفجوة الجوهرية بين الوكلاء الآلية وبيئات سطح المكتب المصممة للفعل البشري. إن تعميم تدريب التعلم المعزز من النهاية إلى النهاية يُعدّ أمرًا حاسمًا لتحسين الأداء والقدرة على التعميم عبر مهام سطح المكتب المتنوعة، ومع ذلك يظل التحدي كبيرًا بسبب عدم الكفاءة البيئية وعدم الاستقرار في مراحل التدريب الطويلة. ولدعم تدريب م skalable وموثوق، قمنا بتطوير بنية تحتية موزعة للتعلم المعزز، قادرة على تنسيق آلاف البيئات الافتراضية لسطح المكتب المتوازية، مما يُسرّع من عملية التعلم المعزز عبر الإنترنت على نطاق واسع. بالإضافة إلى ذلك، نقترح "Entropulse"، وهي استراتيجية تدريب تتناوب بين التعلم المعزز والضبط المُعلّم (supervised fine-tuning)، مما يُقلّل بشكل فعّال من ظاهرة انهيار الإنتروبيا خلال الجلسات الطويلة للتدريب. وقد تم استخدام إطار ComputerRL مع نماذج مفتوحة المصدر GLM-4-9B-0414 وQwen2.5-14B، وتم تقييمها على معيار OSWorld. وقد حقق النموذج AutoGLM-OS-9B المستند إلى GLM-4-9B-0414 أداءً جديدًا في مستوى الحالة الراهنة (state-of-the-art) بدقة وصلت إلى 48.1%، مُظهرًا تحسينات كبيرة في كفاءة الوكلاء العامة في أوتوماتيكيّة سطح المكتب. وقد تم اعتماد الخوارزمية والإطار في بناء AutoGLM (Liu et al., 2024a).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ComputerRL: توسيع التعلم المعزز المباشر عبر الإنترنت من البداية إلى النهاية لوكالات استخدام الحاسوب | مستندات | HyperAI