HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

UI-S1: تطوير الأتمتة الرسومية عبر التعلم المعزز شبه الزمن الحقيقي

UI-S1: تطوير الأتمتة الرسومية عبر التعلم المعزز شبه الزمن الحقيقي

الملخص

أظهرت الوكالات المبنية على واجهة المستخدم الرسومية (GUI) تقدماً ملحوظاً في أتمتة التفاعلات المعقدة مع واجهة المستخدم من خلال التعلم المعزز. ومع ذلك، تواجه النماذج الحالية تناقضاً جوهرياً: فالتعلم المعزز الخارجي (offline RL) يُمكّن من تدريب مستقر على مسارات مُجمعة مسبقاً، لكنه يعاني من صعوبة في تنفيذ المهام متعددة الخطوات نظراً لغياب إشارات المكافأة على مستوى المسار؛ في حين أن التعلم المعزز المباشر (online RL) يُلتقط هذه الإشارات من خلال التفاعل مع البيئة، لكنه يعاني من مكافآت نادرة وتكاليف تشغيل مرتفعة بشكل مُبالغ فيه. ولحل هذه المشكلة، نقدّم نموذجاً جديداً يُعرف بـ"التعلم المعزز شبه المباشر" (Semi-online Reinforcement Learning)، الذي يُحاكي التعلم المعزز المباشر على مسارات خارجية. أثناء كل عملية تمرير (rollout)، نحتفظ بال출력 الأصلي للنموذج ضمن الحوار متعدد الدورات، حيث يقوم وحدة التصحيح (Patch Module) بتعديل الانحراف تلقائياً بين المسار الناتج والمسار الخبير. ولالتقاط إشارات التدريب طويلة المدى، يُدخل النموذج المُقترح مفهوم "العائدات المستقبلية المُخفَّضة" (discounted future returns) في عملية حساب المكافأة، ويُحسّن السياسة باستخدام مزايا مرحلية (step-level) ومزايا على مستوى المهمة (episode-level) بوزن مُعدّل. كما نقدّم مقياساً جديداً يُسمى "الأداء شبه المباشر" (Semi-Online Performance - SOP)، الذي يتماشى بشكل أفضل مع الأداء الحقيقي المباشر، ويُعد بديلاً عملياً وفعالاً لتقييم الأداء في البيئات الواقعية. أظهرت التجارب أن نموذجنا يحقق أفضل أداء مُسجل (SOTA) بين النماذج ذات 7 مليار معامل على أربع بيئات ديناميكية، مع تحسّن كبير مقارنة بالنموذج الأساسي (مثل +12.0% على AndroidWorld، و+23.8% على AITW)، ما يدل على تقدّم ملحوظ في تقريب الفجوة بين كفاءة التدريب الخارجي وقُدرة التفكير متعدد الدورات في البيئة المباشرة. يمكن الاطلاع على الكود المصدر عبر الرابط التالي: https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UI-S1: تطوير الأتمتة الرسومية عبر التعلم المعزز شبه الزمن الحقيقي | الأوراق البحثية | HyperAI