HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

WebSight: معمارية تُركّز على الرؤية لوكالات ويب قوية

Tanvir Bhathal Asanshay Gupta

WebSight: معمارية تُركّز على الرؤية لوكالات ويب قوية

الملخص

نقدّم "WebSight"، وكيلًا ويب ذاتيًا يعتمد على الرؤية، مصممًا للتفاعل مع البيئات الإلكترونية بالكامل من خلال الإدراك البصري فقط، مع التخلي عن الاعتماد على المدخلات القائمة على HTML أو DOM. وتمثّل النموذج الجديد الذي نقدّمه، WebSight-7B، المحور الرئيسي في نهجنا، وهو نموذج مُعدّل للغة والرؤية، مُحسّن لتفاعل العناصر في واجهة المستخدم، تم تدريبه باستخدام تقنية LoRA على مجموعة بيانات مخصصة للويب تُسمى Wave-UI-25K. وتم دمج هذا النموذج في بنية متعددة الوكلاء قابلة للتعديل، تتضمن وكلاء التخطيط، والاستنتاج، والرؤية-الإجراء، والتحقق، مع تنسيق هذه الوكلاء عبر آلية ذاكرة دورية. تحقيق WebSight-7B دقة أعلى بنسبة 58.84% في اختبار Showdown Clicks، متفوّقًا على عدة نماذج عامة أكبر حجمًا مع الحفاظ على زمن استجابة أقل. في حين حقق الوكيل الكامل WebSight معدل نجاح بلغ 68.0% في اختبار WebVoyager، متفوّقًا على أنظمة من مختبرات مثل OpenAI (61.0%) وHCompany (Runner H، 67.0%). وعند إنجاز المهام، يجيب WebSight بشكل صحيح بنسبة 97.14% من المرات، ما يدل على دقة عالية جدًا. وبشكل جماعي، يُرسي WebSight وWebSight-7B معيارًا جديدًا لتنقل الويب البصري، القابل للتفسير، والمتين، والكفوء.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
WebSight: معمارية تُركّز على الرؤية لوكالات ويب قوية | الأوراق البحثية | HyperAI