HyperAIHyperAI
منذ شهر واحد

EmbRACE-3K: التفكير والعمل المادي في بيئات معقدة

Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
EmbRACE-3K: التفكير والعمل المادي في بيئات معقدة
الملخص

قد أظهرت النماذج اللغوية المرئية المتقدمة حديثًا (VLMs) أداءً قويًا في مهام فهم الصور والفيديوهات بشكل سلبي وخارجي. ومع ذلك، فإن فعاليتها في البيئات المتجسدة، التي تتطلب التفاعل عبر الإنترنت وفهم المشهد بشكل نشط، لا تزال محدودة. في مثل هذه السيناريوهات، يدرك العميل البيئة من وجهة نظر الشخص الأول، حيث تشكل كل حركة الملاحظات اللاحقة بشكل ديناميكي. حتى النماذج الرائدة مثل GPT-4o، Claude 3.5 Sonnet، وGemini 2.5 Pro تواجه صعوبات في التفاعلات البيئية المفتوحة، مما يظهر حدودها الواضحة في الاستدلال المكاني والتخطيط على مدى طويل.لسد هذا الفجوة، نقدم مجموعة البيانات EmRACE-3K، وهي تحتوي على أكثر من 3,000 مهمة موجهة باللغة وتتموضع في بيئات متنوعة ومصورة بواقعية باستخدام محرك Unreal Engine وإطار UnrealCV-Zoo. تشمل هذه المهام مجموعة واسعة من التحديات المتجسدة، بما في ذلك التنقل، تعديل الأشياء، وإجراء أهداف متعددة المراحل. تنكشف كل مهمة كمسار متعدد الخطوات، يربط بين ملاحظات بصرية من وجهة نظر الشخص الأول مع تعليمات عالية المستوى وأفعال مستقرة ولغة طبيعية توضح نوايا العميل في كل خطوة.باستخدام EmRACE-3K، نحدد مقاييس لتقييم قدرات الاستدلال المتجسد للنماذج اللغوية المرئية عبر ثلاثة أبعاد رئيسية: الاستكشاف، والاستدلال الفضائي-الدلالاتي الديناميكي، وإجراء الأهداف المتعددة المراحل. وفي الإعدادات بدون تصوير سابق (zero-shot)، تحقق جميع النماذج معدلات نجاح أقل من 20%، مما يؤكد التحدي الذي يطرحه مقاييسنا والقيود الحالية للنماذج اللغوية المرئية في البيئات التفاعلية.لإثبات فائدة EmRACE-3K، قمنا بتحسين Qwen2.5-VL-7B باستخدام التعلم الإشرافي يتبعه التعلم التعزيزي. أدت هذه الطريقة إلى تحسين كبير في جميع ثلاث فئات التحدي، مما يبرز فعالية مجموعة البيانات في تمكين تطوير قدرات الاستدلال المتجسد.