الوكلاء الماديون على الويب: ربط المجالات المادية الرقمية لتحقيق ذكاء وكيل متكامل

تُعَدُّ الوكلاء الذكية (AI agents) اليوم في الغالب منفصلة - فهي إما تسترجع وتستدل على كميات ضخمة من المعلومات والمعارف الرقمية المُ��َّكة عبر الإنترنت، أو تتفاعل مع العالم المادي من خلال الإدراك الجسدي والتخطيط والفعل - ولكن نادراً ما تجمع بين الأمرين معاً. يحد هذا الفصل من قدرتها على حل المهام التي تتطلب دمج الذكاء المادي والرقمي، مثل الطهي وفقاً لوصفات عبر الإنترنت، التنقل باستخدام بيانات الخرائط الديناميكية، أو فهم المعالم الحقيقية باستخدام المعرفة الويب. نقدم الوكلاء الجسدية للويب (Embodied Web Agents)، وهي نموذج جديد للوكلاء الذكية التي تربط بسلاسة بين الإدراك الجسدي والاستدلال على نطاق الويب. لتحقيق هذا المفهوم، نطور أولاً بيئات مهمة الوكلاء الجسدية للويب، وهي منصة محاكاة موحدة تدمج بشكل وثيق البيئات ثلاثية الأبعاد الواقعية داخل الأبنية وخارجها مع واجهات الويب العملية. اعتماداً على هذه المنصة، نقوم ببناء وإصدار مقاييس الوكلاء الجسدية للوеб (Embodied Web Agents Benchmark)، والتي تشمل مجموعة متنوعة من المهام مثل الطهي، التنقل، التسوق، السياحة، والتحديد الجغرافي - وكلها تتطلب استدلالاً متزامناً عبر المجالات المادية والرقمية لتقييم نظامي للذكاء العابر للمجالات. تكشف النتائج التجريبية عن فوارق أداء كبيرة بين أنظمة الذكاء الاصطناعي الأكثر تقدماً وقدرات الإنسان، مما يحدد التحديات والفرص عند تقاطع الإدراك الجسدي ووصول المعرفة على نطاق الويب. جميع قواعد البيانات والأكواد والمواقع متاحة للعموم في صفحة مشروعنا https://embodied-web-agent.github.io/.