WebLINX: الملاحة في المواقع الإلكترونية الحقيقية باستخدام الحوار متعدد الدورات

نقترح مشكلة التنقل في الويب التفاعلي، حيث يقوم وكيل رقمي بتحكم متصفح الويب واتباع تعليمات المستخدم لحل المهام الحقيقية في نمط حوار متعدد الأدوار. لدعم هذه المشكلة، نقدم WEBLINX - وهو معيار على نطاق واسع يحتوي على 100 ألف تفاعل عبر 2300 عرض توضيحي من خبراء للتنقل في الويب التفاعلي. يغطي معيارنا مجموعة واسعة من الأنماط في أكثر من 150 موقعًا إلكترونيًا حقيقيًا ويمكن استخدامه لتدريب وتقييم الوكلاء في سيناريوهات متنوعة. بسبب حجم المعلومات الموجودة، لا يمكن لنماذج اللغات الكبيرة (LLMs) معالجة صفحات الويب بأكملها بشكل فعلي في الوقت الفعلي. لحل هذه العقبة، نصمم نموذجًا مستوحىً من الاسترجاع يقلم الصفحات HTML بكفاءة عن طريق تصنيف العناصر ذات الصلة. نستخدم العناصر المختارة، بالإضافة إلى الصور الشاشة وتاريخ الإجراءات، لتقييم مجموعة متنوعة من النماذج لقدرتها على تقليد السلوك البشري عند التنقل في الويب. تشمل تجاربنا النماذج الصغيرة التي تعتمد فقط على النصوص وحتى النماذج متعددة الوسائط الخاصة والكبيرة الحجم (LLMs). وجدنا أن المفككات الصغيرة تتفوق على أفضل النماذج الكبيرة بدون تعلم أولي (مثل GPT-4V)، وكذلك النماذج المتعددة الوسائط الكبيرة التي تم تدريبها بشكل صريح على الصور الشاشة. ومع ذلك، فإن جميع النماذج المفككة تواجه صعوبة في التعميم إلى مواقع الويب غير المعروفة سابقًا. تحظى استنتاجاتنا بأهمية كبيرة تؤكد الحاجة إلى نماذج متعددة الوسائط كبيرة الحجم قادرة على التعميم إلى بيئات جديدة. رمز البرمجيات والبيانات والنماذج متاحة للأبحاث: https://mcgill-nlp.github.io/weblinx