Ego-R1: سلسلة التفكير بالأدوات لمنطق الفيديو الذاتي المطول للغاية

نقدم إطارًا جديدًا يُسمى Ego-R1، وهو مصمم للتعامل مع مقاطع الفيديو الذاتية طويلة جدًا (أي، تستمر لعدة أيام وأسابيع)، حيث يستفيد من عملية سلسلة التفكير بمساعدة الأدوات (CoTT) المنظمة التي يتم تنسيقها بواسطة وكيل Ego-R1 مدرب باستخدام التعلم التعزيزي (RL). مستوحى من استراتيجيات حل المشكلات البشرية، تقوم CoTT بتفكيك التفكير المعقد إلى خطوات قابلة للإدارة، مع دعوة الوكيل المدرب بالتعلم التعزيزي لأداة محددة في كل خطوة لتقديم إجابات تعاونية وتدريجية على الأسئلة الجزئية المتعلقة بمهمات مثل الاسترجاع الزمني والفهم متعدد الوسائط. نحن نصمم نموذج تدريب ذو مرحلتين يشمل تعديل النموذج اللغوي المسبقاً مدرب باستخدام بيانات CoTT (تعديل التعلم الإشرافي SFT) والتعلم التعزيزي (RL) لتمكين وكيلنا من اقتراح أدوات خطوة بخطوة بشكل ديناميكي للتفكير على مدى طويل. لتسهيل التدريب، قمنا بإنشاء مجموعة بيانات تُسمى بيانات Ego-R1، والتي تتكون من Ego-CoTT-25K لمراحل تعديل التعلم الإشرافي (SFT) وEgo-QA-4.4K للتعلم التعزيزي (RL). بالإضافة إلى ذلك، يتم تقييم وكيلنا Ego-R1 على معيار أسئلة وأجوبة الفيديو الأسبوعي الجديد الذي تم جمعه بعناية، ويُعرف باسم Mعيار Ego-R1 Bench، والذي يحتوي على أزواج أسئلة وأجوبة تم التحقق منها بواسطة البشر من مصادر مختلطة. تظهر النتائج الشاملة أن التفكير السلس والمدعم بالأدوات بواسطة وكيلنا Ego-R1 يمكنه التعامل بكفاءة مع التحديات الفريدة لفهم مقاطع الفيديو الذاتية طويلة جدًا، مما يمد فترة التغطية الزمنية بشكل كبير من ساعات قليلة إلى أسبوع كامل.