منذ 4 أيام

تقرير فني لـ Kwai Keye-VL

Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang

عرض تفاصيل الورقة البحثية View Code

الملخص

بينما تظهر نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة على الصور الثابتة، فإنها غالباً ما تفشل في فهم الفيديوهات القصيرة ذات المعلومات الكثيفة والديناميكية، وهي وسيلة سائدة في المناظر الرقمية الحالية. لسد هذه الفجوة، نقدم Kwai Keye-VL، وهو نموذج أساسي متعدد الوسائط يحتوي على 8 مليارات معلمة تم تصميمه لتحقيق أداء متفوق في فهم الفيديوهات القصيرة مع الحفاظ على قدراته المرنة في الرؤية واللغة بشكل عام. يعتمد تطوير Keye-VL على ركيزتين أساسيتين: مجموعة بيانات ضخمة عالية الجودة تتجاوز 600 مليار رمز مع التركيز القوي على الفيديو، ووصفة تدريب مبتكرة. تتضمن هذه الوصفة عملية تعليم أولي من أربع مراحل لتحقيق تناسق صلب بين الرؤية واللغة، تليها عملية تعليم ما بعد التدريب الدقيق من مرحلتين. تعزز المرحلة الأولى من التعليم ما بعد التدريب القدرات الأساسية مثل اتباع التعليمات، بينما تركز المرحلة الثانية على تحفيز الاستدلال المتقدم. وفي هذه المرحلة الثانية، يعتبر خليط البيانات الخماسي الوضع "البداية الباردة" (cold-start) أحد الإبداعات الرئيسية، والذي يشمل بيانات "التفكير"، "غير التفكير"، "التفكير التلقائي"، "التفكير مع الصورة"، وبيانات الفيديو عالية الجودة. هذا الخليط يعلم النموذج متى وكيف يستدل. خطوات التعلم التعزيزي (RL) والتناسق اللاحقة تعزز هذه القدرات الاستدلية وتصحح سلوكيات النموذج غير الطبيعية مثل الإخراج المتكرر. لتأكيد نهجنا، نقوم بإجراء تقييمات واسعة النطاق، مما يظهر أن Keye-VL حقق نتائج طليعية على مقاييس الفيديو العامة وأبقى على تنافسيته العالية في المهام المستندة إلى الصور الثابتة (الشكل 1). بالإضافة إلى ذلك، قمنا بتطوير وإصدار KC-MMBench، وهو مقاييس جديد مصمم خصيصًا للمواقف الواقعية للفيديوهات القصيرة، حيث أظهر Keye-VL ميزة كبيرة فيه.