HyperAIHyperAI

Command Palette

Search for a command to run...

InfiGUI-G1: تطوير الترسيخ الرسومي مع تحسين سياسة الاستكشاف التكيفية

الملخص

أدى ظهور نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى دفع تطور الوكلاء المستقلين الذين يعملون على واجهات المستخدم الرسومية (GUIs) باستخدام إدخال بصري خالص. ويمثل التحدي الأساسي هو تثبيت تعليمات اللغة الطبيعية بشكل موثوق. ويستدعي ذلك تزامنًا مكانيًا دقيقًا، الذي يحدد بدقة إحداثيات كل عنصر، وأهم من ذلك، تزامنًا معنويًا صحيحًا، الذي يربط التعليمات بالعنصر المناسب وظيفيًا في واجهة المستخدم. وعلى الرغم من أن التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) أثبت فعاليته في تحسين التزامن المكاني لهذه النماذج، فإننا نلاحظ أن الاستكشاف غير الفعّال يشكل عائقًا أمام التزامن المعنوي، مما يمنع النماذج من تعلّم العلاقات المعنوية المعقدة. ولحل مشكلة الاستكشاف هذه، نقدّم إطارًا جديدًا لتحسين السياسة يُسمى "تحسين السياسة الاستكشافية التكيفية" (AEPO). ويستخدم AEPO استراتيجية توليد إجابات متعددة لفرض استكشاف أوسع، والذي يتم بعد ذلك توجيهه بواسطة دالة مكافأة استكشافية تكيفية (AER) مبنية على مبادئ نظرية مستمدة من مبدأ الكفاءة η = U/C. وقد أظهرت النماذج المدربة باستخدام AEPO، وهي InfiGUI-G1-3B وInfiGUI-G1-7B، نتائج جديدة في صدارة المجال عبر عدة معايير صعبة لتثبيت واجهة المستخدم الرسومية، محققة تحسينات نسبية كبيرة تصل إلى 9.0% مقارنةً بالأساسية البسيطة (naive RLVR) في المعايير المصممة لاختبار التعميم والفهم المعنوي. تتوفر الموارد على الرابط: https://github.com/InfiXAI/InfiGUI-G1.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
InfiGUI-G1: تطوير الترسيخ الرسومي مع تحسين سياسة الاستكشاف التكيفية | مستندات | HyperAI