Command Palette
Search for a command to run...
هل يمكن للوكيل أن ينتصر على الويب؟ استكشاف حدود وكيل ChatGPT Atlas في ألعاب الويب
هل يمكن للوكيل أن ينتصر على الويب؟ استكشاف حدود وكيل ChatGPT Atlas في ألعاب الويب
Jingran Zhang Ning Li Justin Cui
الملخص
يُقدّم نموذج ChatGPT Atlas من OpenAI قدرات جديدة في التفاعل مع الويب، تُمكّن النموذج من تحليل صفحات الويب، وفهم نوايا المستخدم، وتنفيذ إدخالات الماوس ولوحة المفاتيح مباشرة داخل المتصفح. وعلى الرغم من إثبات قدرته على مهام استرجاع المعلومات، تظل أداؤه في البيئات الديناميكية التفاعلية مجالاً أقل استكشافاً. في هذه الدراسة، نُجري تقييماً مبكراً لقدرات Atlas في التفاعل مع الويب باستخدام ألعاب متصفحية كسيناريوهات اختبار، تشمل لعبة T-Rex Runner من جوجل، وسُودوكو، وFlappy Bird، وStein.world. ونستخدم درجات الأداء داخل اللعبة كمقاييس كمية لتقييم الأداء عبر أنواع مهام مختلفة. تُظهر النتائج أن Atlas يُظهر أداءً قوياً في المهام التي تتطلب تفكير منطقي مثل سُودوكو، حيث يُكمل الألغاز بشكل أسرع بكثير من المعايير البشرية، لكنه يواجه صعوبات كبيرة في الألعاب الزمنية الحية التي تتطلب تزامناً دقيقاً وتحكمًا حركيًا، غالبًا ما يفشل في التقدم بعيداً عن العوائق الابتدائية. تشير هذه النتائج إلى أن尽管 Atlas يُظهر قدرة تحليلية متميزة، تظل هناك قيود ملحوظة في البيئات الويب الديناميكية التي تتطلب تفاعلاً في الزمن الفعلي. يمكن الاطلاع على موقع مشاريعنا عبر الرابط: https://atlas-game-eval.github.io.