Command Palette
Search for a command to run...
ComputerRL: توسيع التعلم المعزز المباشر عبر الإنترنت من البداية إلى النهاية لوكالات استخدام الحاسوب
ComputerRL: توسيع التعلم المعزز المباشر عبر الإنترنت من البداية إلى النهاية لوكالات استخدام الحاسوب
Hanyu Lai Xiao Liu Yanxiao Zhao Han Xu Hanchen Zhang Bohao Jing et al
الملخص
نقدّم "ComputerRL"، وهي إطار عمل للذكاء الذاتي على سطح المكتب، يمكّن الوكلاء من أداء المهام المعقدة في بيئات رقمية متعددة بمهارة. يتميز إطار ComputerRL بمنهجه المُسمّى "واجهة برمجة التطبيقات-واجهة المستخدم الرسومية" (API-GUI)، والذي يوحّد بين استدعاءات واجهة برمجة التطبيقات البرمجية والتفاعل المباشر مع واجهة المستخدم الرسومية، بهدف معالجة الفجوة الجوهرية بين الوكلاء الآلية وبيئات سطح المكتب المصممة للفعل البشري. إن تعميم تدريب التعلم المعزز من النهاية إلى النهاية يُعدّ أمرًا حاسمًا لتحسين الأداء والقدرة على التعميم عبر مهام سطح المكتب المتنوعة، ومع ذلك يظل التحدي كبيرًا بسبب عدم الكفاءة البيئية وعدم الاستقرار في مراحل التدريب الطويلة. ولدعم تدريب م skalable وموثوق، قمنا بتطوير بنية تحتية موزعة للتعلم المعزز، قادرة على تنسيق آلاف البيئات الافتراضية لسطح المكتب المتوازية، مما يُسرّع من عملية التعلم المعزز عبر الإنترنت على نطاق واسع. بالإضافة إلى ذلك، نقترح "Entropulse"، وهي استراتيجية تدريب تتناوب بين التعلم المعزز والضبط المُعلّم (supervised fine-tuning)، مما يُقلّل بشكل فعّال من ظاهرة انهيار الإنتروبيا خلال الجلسات الطويلة للتدريب. وقد تم استخدام إطار ComputerRL مع نماذج مفتوحة المصدر GLM-4-9B-0414 وQwen2.5-14B، وتم تقييمها على معيار OSWorld. وقد حقق النموذج AutoGLM-OS-9B المستند إلى GLM-4-9B-0414 أداءً جديدًا في مستوى الحالة الراهنة (state-of-the-art) بدقة وصلت إلى 48.1%، مُظهرًا تحسينات كبيرة في كفاءة الوكلاء العامة في أوتوماتيكيّة سطح المكتب. وقد تم اعتماد الخوارزمية والإطار في بناء AutoGLM (Liu et al., 2024a).