Command Palette
Search for a command to run...
ActionEngine: من الوكيل الردّي إلى الوكيل الرسومي البرمجي من خلال الذاكرة الآلية الحالة
ActionEngine: من الوكيل الردّي إلى الوكيل الرسومي البرمجي من خلال الذاكرة الآلية الحالة
Hongbin Zhong Fazle Faisal Luis França Tanakorn Leesatapornwongsa Adriana Szekeres Kexin Rong Suman Nath
الملخص
تعمل الوكلاء الحاليون القائمون على واجهات المستخدم الرسومية (GUI) من خلال استدعاء تدريجي لنموذجات اللغة البصرية—بأخذ لقطة شاشة، ثم التفكير في الإجراء التالي، ثم تنفيذه، ثم التكرار على الصفحة الجديدة—ما يؤدي إلى تكاليف عالية وتأخير كبير يزداد مع عدد مراحل التفكير، ويُعدّ محدود الدقة نظرًا لعدم وجود ذاكرة دائمة للصفحات التي تم زيارتها سابقًا.نُقدّم "ActionEngine"، إطار عمل لا يتطلب تدريبًا، يُحوّل من التنفيذ التفاعلي إلى التخطيط البرمجي من خلال معمارية ثنائية وكالة جديدة: وكالة استكشاف (Crawling Agent) التي تُنشئ ذاكرة من نوع آلة الحالة القابلة للتحديث لواجهات المستخدم الرسومية من خلال استكشاف خارج الوقت (offline)، ووكالة تنفيذ (Execution Agent) تُستفيد من هذه الذاكرة لتركيب برامج بايثون كاملة وقابلة للتنفيذ لأغراض التنفيذ المباشر عبر الإنترنت.ولضمان الموثوقية أمام التغيرات في واجهات المستخدم، فإن فشل التنفيذ يُطلق آلية استرجاع بصرية (vision-based re-grounding fallback) تُصلح الإجراء الفاشل وتُحدّث الذاكرة على الفور.يُحسّن هذا التصميم بشكل كبير من الكفاءة والدقة معًا: ففي مهام Reddit من معيار WebArena، يحقق وكيلنا نجاحًا بنسبة 95% بحالة متوسطة لا تتطلب سوى استدعاء واحد فقط لنموذج لغة كبير (LLM)، مقارنة بنسبة 66% للنموذج الأقوى القائم على البصر فقط، مع تقليل التكلفة بنسبة 11.8 مرة، وتقليل التأخير الإجمالي بنسبة 2 مرة.بشكل جماعي، تُسهم هذه المكونات في تحقيق تفاعل موثوق وقابل للتوسع مع واجهات المستخدم الرسومية من خلال دمج التخطيط البرمجي الشامل، وقوالب الإجراءات المُختبرة عبر المُستكشف، والتنفيذ على مستوى العقدة مع التحقق الموضعي وإصلاح الأخطاء.