HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير فني لـ Kwai Keye-VL

الملخص

بينما تظهر نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة على الصور الثابتة، فإنها غالباً ما تفشل في فهم الفيديوهات القصيرة ذات المعلومات الكثيفة والديناميكية، وهي وسيلة سائدة في المناظر الرقمية الحالية. لسد هذه الفجوة، نقدم Kwai Keye-VL، وهو نموذج أساسي متعدد الوسائط يحتوي على 8 مليارات معلمة تم تصميمه لتحقيق أداء متفوق في فهم الفيديوهات القصيرة مع الحفاظ على قدراته المرنة في الرؤية واللغة بشكل عام. يعتمد تطوير Keye-VL على ركيزتين أساسيتين: مجموعة بيانات ضخمة عالية الجودة تتجاوز 600 مليار رمز مع التركيز القوي على الفيديو، ووصفة تدريب مبتكرة. تتضمن هذه الوصفة عملية تعليم أولي من أربع مراحل لتحقيق تناسق صلب بين الرؤية واللغة، تليها عملية تعليم ما بعد التدريب الدقيق من مرحلتين. تعزز المرحلة الأولى من التعليم ما بعد التدريب القدرات الأساسية مثل اتباع التعليمات، بينما تركز المرحلة الثانية على تحفيز الاستدلال المتقدم. وفي هذه المرحلة الثانية، يعتبر خليط البيانات الخماسي الوضع "البداية الباردة" (cold-start) أحد الإبداعات الرئيسية، والذي يشمل بيانات "التفكير"، "غير التفكير"، "التفكير التلقائي"، "التفكير مع الصورة"، وبيانات الفيديو عالية الجودة. هذا الخليط يعلم النموذج متى وكيف يستدل. خطوات التعلم التعزيزي (RL) والتناسق اللاحقة تعزز هذه القدرات الاستدلية وتصحح سلوكيات النموذج غير الطبيعية مثل الإخراج المتكرر. لتأكيد نهجنا، نقوم بإجراء تقييمات واسعة النطاق، مما يظهر أن Keye-VL حقق نتائج طليعية على مقاييس الفيديو العامة وأبقى على تنافسيته العالية في المهام المستندة إلى الصور الثابتة (الشكل 1). بالإضافة إلى ذلك، قمنا بتطوير وإصدار KC-MMBench، وهو مقاييس جديد مصمم خصيصًا للمواقف الواقعية للفيديوهات القصيرة، حيث أظهر Keye-VL ميزة كبيرة فيه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني لـ Kwai Keye-VL | مستندات | HyperAI