HyperAIHyperAI

Command Palette

Search for a command to run...

Ego2Web: معيار تقييم لوكلاء الويب مستند إلى فيديوهات من منظور الشخص الأول

Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong

الملخص

تُحوّل وكلاء الذكاء الاصطناعي متعدد الوسائط (Multimodal AI agents) بشكل متزايد سير عمل معقدة في العالم الحقيقي تتضمن تنفيذ عمليات عبر الإنترنت. غير أن مقاييس التقييم الحالية لوكلاء الويب تعاني من قيد جوهري: فهي تركز حصريًا على التفاعل والإدراك القائم على الويب، دون ترسيخ في المحيط المادي الفعلي للمستخدم. ويُعيق هذا القيد التقييم في سيناريوهات حاسمة، مثل تلك التي يتعين فيها على الوكيل استخدام الإدراك البصري الذاتي (egocentric visual perception) (على سبيل المثال، عبر نظارات الواقع المعزز AR glasses) للتعرف على كائن في محيط المستخدم، ثم إكمال مهمة ذات صلة عبر الإنترنت. ولمعالجة هذه الفجوة، نقترح Ego2Web، وهو أول مقياس تقييم مصمم لسد الفجوة بين إدراك الفيديو الذاتي وتنفيذ وكيل الويب. يجمع Ego2Web بين تسجيلات فيديو من منظور الشخص الأول في العالم الحقيقي ومهام ويب تتطلب فهمًا بصريًا، وتخطيطًا للمهام الويب، وتفاعلاً في بيئة عبر الإنترنت لإنجازها بنجاح. وقد استخدمنا خط إنتاج (pipeline) تلقائي لتوليد البيانات، مقترنًا بالتحقق البشري والتحسين، لانتقاء أزواج فيديو-مهمة متماسكة وعالية الجودة عبر أنواع متنوعة من مهام الويب، بما في ذلك التجارة الإلكترونية، واسترجاع الوسائط، والبحث عن المعرفة، وغيرها. ولتسهيل تقييم دقيق وقابل للتوسع لمقياسنا، طوّرنا أيضًا طريقة تقييم تلقائية جديدة تعتمد على نموذج لغوي ضخم كمحكم (LLM-as-a-Judge) باسم Ego2WebJudge، حققت توافقًا يبلغ حوالي 84% مع الحكم البشري، وهو ما يتفوق بشكل كبير على طرق التقييم الحالية. وأظهرت التجارب التي أُجريت على وكلاء أحدث تقنيات (SoTA) متنوعين على منصة Ego2Web أن أداؤها ضعيف، مع وجود هامش كبير للتحسين عبر جميع فئات المهام. كما أجرينا دراسة استبعاد شاملة (comprehensive ablation study) حول تصميم المهام، سلطت الضوء على ضرورة الفهم الدقيق للفيديو في المهام المقترحة، وعلى القيود التي تواجه الوكلاء الحاليين. ونأمل أن يصبح Ego2Web موردًا جديدًا حاسمًا لتطوير مساعدي ذكاء اصطناعي قادرين حقًا على الرؤية والفعل والتفاعل بسلاسة عبر العالمين المادي والرقمي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp