منذ 13 أيام

InfiGUI-G1: تطوير الترسيخ الرسومي مع تحسين سياسة الاستكشاف التكيفية

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

عرض تفاصيل الورقة البحثية View Code

InfiGUI-G1: تطوير الترسيخ الرسومي مع تحسين سياسة الاستكشاف التكيفية

الملخص

أدى ظهور نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى دفع تطور الوكلاء المستقلين الذين يعملون على واجهات المستخدم الرسومية (GUIs) باستخدام إدخال بصري خالص. ويمثل التحدي الأساسي هو تثبيت تعليمات اللغة الطبيعية بشكل موثوق. ويستدعي ذلك تزامنًا مكانيًا دقيقًا، الذي يحدد بدقة إحداثيات كل عنصر، وأهم من ذلك، تزامنًا معنويًا صحيحًا، الذي يربط التعليمات بالعنصر المناسب وظيفيًا في واجهة المستخدم. وعلى الرغم من أن التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) أثبت فعاليته في تحسين التزامن المكاني لهذه النماذج، فإننا نلاحظ أن الاستكشاف غير الفعّال يشكل عائقًا أمام التزامن المعنوي، مما يمنع النماذج من تعلّم العلاقات المعنوية المعقدة. ولحل مشكلة الاستكشاف هذه، نقدّم إطارًا جديدًا لتحسين السياسة يُسمى "تحسين السياسة الاستكشافية التكيفية" (AEPO). ويستخدم AEPO استراتيجية توليد إجابات متعددة لفرض استكشاف أوسع، والذي يتم بعد ذلك توجيهه بواسطة دالة مكافأة استكشافية تكيفية (AER) مبنية على مبادئ نظرية مستمدة من مبدأ الكفاءة η = U/C. وقد أظهرت النماذج المدربة باستخدام AEPO، وهي InfiGUI-G1-3B وInfiGUI-G1-7B، نتائج جديدة في صدارة المجال عبر عدة معايير صعبة لتثبيت واجهة المستخدم الرسومية، محققة تحسينات نسبية كبيرة تصل إلى 9.0% مقارنةً بالأساسية البسيطة (naive RLVR) في المعايير المصممة لاختبار التعميم والفهم المعنوي. تتوفر الموارد على الرابط: https://github.com/InfiXAI/InfiGUI-G1.