HyperAIHyperAI
Back to Headlines

Smol2Operator: نموذج ذكاء اصطناعي خفيف يتعلم التفاعل مع واجهات الحاسوب عبر التدريب المُرشد

منذ 4 أيام

يُقدّم هذا العمل نهجًا متكاملًا لتدريب نماذج لغة ورؤية صغيرة (VLMs) على التفاعل مع واجهات المستخدم الرسومية (GUI)، من خلال استراتيجية تدريب مزدوجة تحوّل نموذجًا لا يمتلك أي قدرة على التوجيه في واجهات المستخدم إلى وكيل ذكي قادر على فهم وتنفيذ مهام معقدة. تم استخدام نموذج SmolVLM2-2.2B-Instruct كأساس، والذي يبدأ بدون أي توجيه لواجهات GUI، ليُحوّل عبر تدريب مُقسّم إلى وكيل قادِر على التفكير والتفاعل. أولًا، تم معالجة التحدي الكبير المتمثل في تباين صيغ الأوامر بين مجموعات البيانات المختلفة، عبر إنشاء مسار تحويل بيانات موحد يُوحّد أنواع الأوامر (مثل النقر، الكتابة، التمرير) وفقًا لصيغة موحدة وتنسيق إحداثيات مُوحّد (مُعادل إلى النطاق [0,1])، مما يضمن التوافق مع أي حجم صورة. تم تطوير أدوات مفتوحة المصدر، مثل "مُحوّل فضاء الأوامر"، تسمح للمستخدمين بتحويل الأوامر إلى صيغة مخصصة حسب احتياجاتهم، مما يعزز المرونة في الاستخدامات المختلفة. في المرحلة الأولى، تم تدريب النموذج على مجموعة البيانات smolagents/aguvis-stage-1، التي تربط بين التعليمات النصية والإجراءات التنفيذية في صور واجهات المستخدم. أظهرت النتائج تحسنًا كبيرًا في أداء النموذج على معيار ScreenSpot-v2، من 0% في النموذج الأصلي إلى 41.27% بعد تدريب مدته 2 دورة، ما يدل على نجاح التدريب في تأسيس قدرة التوجيه البصري. في المرحلة الثانية، تم تدريب النموذج على مجموعة smolagents/aguvis-stage-2، التي تتضمن سيناريوهات عقلانية متعددة الخطوات، حيث يُطلب من النموذج التفكير في الخطوة التالية بناءً على الصورة والتعليمات السابقة. أدى هذا التدريب إلى تحسن إضافي في الأداء إلى 61.71% على نفس المعيار، مما يؤكد أن التفكير الاستنتاجي يعزز قدرة النموذج على التوجيه بدقة. تم إصدار جميع مكونات البحث مفتوحة المصدر: نماذج التدريب، أدوات المعالجة، مجموعات البيانات، والنموذج النهائي (smolagents/SmolVLM2-2.2B-Instruct-Agentic-GUI)، مع توفير مساحة تجريبية مباشرة لتجربة الوظائف. كما أُظهر أن النموذج يعمل بكفاءة حتى مع نموذج أصغر (nanoVLM-460M)، الذي حقق 58% في ScreenSpot-v2، مما يثبت قابلية الاستخدام على موارد محدودة. النتائج تُظهر أن جودة البيانات، لا حجم النموذج، هي العامل الحاسم في تطوير قدرات التوجيه في واجهات المستخدم. وتشير النتائج إلى أن المستقبل يكمن في دمج منهجيات مثل التعلم بالتحفيز (RL) أو تحسين التفضيلات المباشرة (DPO) لبناء وكالات قادرة على التعلم التفاعلي والتطور المستمر. المشروع يفتح الباب أمام باحثين ومبرمجين لاستكشاف وتطوير وكالات ذكية للتفاعل مع الأنظمة الرقمية، بفضل الشفافية والقابلية لإعادة الإنتاج.

Related Links