HyperAIHyperAI

Command Palette

Search for a command to run...

WebLINX: الملاحة في المواقع الإلكترونية الحقيقية باستخدام الحوار متعدد الدورات

Xing Han Lù∗12 Zdeněk Kasner∗13 Siva Reddy124

الملخص

نقترح مشكلة التنقل في الويب التفاعلي، حيث يقوم وكيل رقمي بتحكم متصفح الويب واتباع تعليمات المستخدم لحل المهام الحقيقية في نمط حوار متعدد الأدوار. لدعم هذه المشكلة، نقدم WEBLINX - وهو معيار على نطاق واسع يحتوي على 100 ألف تفاعل عبر 2300 عرض توضيحي من خبراء للتنقل في الويب التفاعلي. يغطي معيارنا مجموعة واسعة من الأنماط في أكثر من 150 موقعًا إلكترونيًا حقيقيًا ويمكن استخدامه لتدريب وتقييم الوكلاء في سيناريوهات متنوعة. بسبب حجم المعلومات الموجودة، لا يمكن لنماذج اللغات الكبيرة (LLMs) معالجة صفحات الويب بأكملها بشكل فعلي في الوقت الفعلي. لحل هذه العقبة، نصمم نموذجًا مستوحىً من الاسترجاع يقلم الصفحات HTML بكفاءة عن طريق تصنيف العناصر ذات الصلة. نستخدم العناصر المختارة، بالإضافة إلى الصور الشاشة وتاريخ الإجراءات، لتقييم مجموعة متنوعة من النماذج لقدرتها على تقليد السلوك البشري عند التنقل في الويب. تشمل تجاربنا النماذج الصغيرة التي تعتمد فقط على النصوص وحتى النماذج متعددة الوسائط الخاصة والكبيرة الحجم (LLMs). وجدنا أن المفككات الصغيرة تتفوق على أفضل النماذج الكبيرة بدون تعلم أولي (مثل GPT-4V)، وكذلك النماذج المتعددة الوسائط الكبيرة التي تم تدريبها بشكل صريح على الصور الشاشة. ومع ذلك، فإن جميع النماذج المفككة تواجه صعوبة في التعميم إلى مواقع الويب غير المعروفة سابقًا. تحظى استنتاجاتنا بأهمية كبيرة تؤكد الحاجة إلى نماذج متعددة الوسائط كبيرة الحجم قادرة على التعميم إلى بيئات جديدة. رمز البرمجيات والبيانات والنماذج متاحة للأبحاث: https://mcgill-nlp.github.io/weblinx


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp