تقرير فني لـ Kwai Keye-VL

بينما تظهر نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة على الصور الثابتة، فإنها غالباً ما تفشل في فهم الفيديوهات القصيرة ذات المعلومات الكثيفة والديناميكية، وهي وسيلة سائدة في المناظر الرقمية الحالية. لسد هذه الفجوة، نقدم Kwai Keye-VL، وهو نموذج أساسي متعدد الوسائط يحتوي على 8 مليارات معلمة تم تصميمه لتحقيق أداء متفوق في فهم الفيديوهات القصيرة مع الحفاظ على قدراته المرنة في الرؤية واللغة بشكل عام. يعتمد تطوير Keye-VL على ركيزتين أساسيتين: مجموعة بيانات ضخمة عالية الجودة تتجاوز 600 مليار رمز مع التركيز القوي على الفيديو، ووصفة تدريب مبتكرة. تتضمن هذه الوصفة عملية تعليم أولي من أربع مراحل لتحقيق تناسق صلب بين الرؤية واللغة، تليها عملية تعليم ما بعد التدريب الدقيق من مرحلتين. تعزز المرحلة الأولى من التعليم ما بعد التدريب القدرات الأساسية مثل اتباع التعليمات، بينما تركز المرحلة الثانية على تحفيز الاستدلال المتقدم. وفي هذه المرحلة الثانية، يعتبر خليط البيانات الخماسي الوضع "البداية الباردة" (cold-start) أحد الإبداعات الرئيسية، والذي يشمل بيانات "التفكير"، "غير التفكير"، "التفكير التلقائي"، "التفكير مع الصورة"، وبيانات الفيديو عالية الجودة. هذا الخليط يعلم النموذج متى وكيف يستدل. خطوات التعلم التعزيزي (RL) والتناسق اللاحقة تعزز هذه القدرات الاستدلية وتصحح سلوكيات النموذج غير الطبيعية مثل الإخراج المتكرر. لتأكيد نهجنا، نقوم بإجراء تقييمات واسعة النطاق، مما يظهر أن Keye-VL حقق نتائج طليعية على مقاييس الفيديو العامة وأبقى على تنافسيته العالية في المهام المستندة إلى الصور الثابتة (الشكل 1). بالإضافة إلى ذلك، قمنا بتطوير وإصدار KC-MMBench، وهو مقاييس جديد مصمم خصيصًا للمواقف الواقعية للفيديوهات القصيرة، حيث أظهر Keye-VL ميزة كبيرة فيه.