VeriGUI: مجموعة بيانات واجهة المستخدم الطويلة القابلة للتحقق

أجرى دراسات حديثة بحثًا في إنشاء وكالات مستقلة قادرة على أداء مهام حاسوبية معقدة تعتمد على واجهات المستخدم الرسومية (GUI)، ما يفتح إمكانية ثورية في تفاعل الإنسان مع الحاسوب. وعلى الرغم من النتائج الواعدة، فإن الجهود الحالية تركز في المقام الأول على التفاعلات قصيرة المدى، وتعتمد على التحقق من النتائج فقط، مما يحد من قابليتها للتوسع في التطبيقات الواقعية لواجهات المستخدم الرسومية التي تتطلب تفكيك المهام وتنفيذها على مدى طويل. في هذه الدراسة، نقدّم "VeriGUI"، وهي مجموعة بيانات جديدة قابلة للتحقق، ذات سلسلة طويلة من المهام الرسومية، صُممت لتمكين تطوير وتقييم الوكالات العامة لواجهات المستخدم الرسومية العاملة في بيئات حاسوبية واقعية. تركز مجموعتنا على محورين حاسمين: (1) التعقيد الطويل السلس، حيث تُفكك المهام إلى سلسلة من المهام الفرعية المترابطة، تمتد عبر مئات الخطوات، وتُصمم صراحةً بحيث يمكن لأي مهمة فرعية أن تكون نقطة بداية صالحة؛ و(2) القابلية للتحقق على مستوى المهمة الفرعية، التي تتيح استراتيجيات استكشاف متنوعة داخل كل مهمة فرعية، مع ضمان أن تبقى كل هدف فرعي قابلاً للتحقق والاتساق. تتكون المجموعة من مسارات مهام واجهة المستخدم الرسومية على كل من الأجهزة المكتبية والويب، مع تعليق بشري من خبراء. أظهرت التجارب الواسعة على VeriGUI باستخدام وكالات مختلفة تعتمد على نماذج أساسية فجوات أداء كبيرة في التعامل مع المهام طويلة المدى، مما يبرز الحاجة إلى تحسين قدرات التخطيط والاتخاذ القرار في الوكالات الرسومية.