HyperAIHyperAI

Command Palette

Search for a command to run...

LiveCC: تعلّم نموذج لغوي فيديو باستخدام الترجمة الصوتية التدفقية على نطاق واسع

Joya Chen Ziyun Zeng Yiqi Lin Wei Li Zejun Ma Mike Zheng Shou

الملخص

تُعتمد النماذج الكبيرة للغة الفيديو الحديثة (Video LLMs) غالبًا على التسميات البشرية المكلفة أو واجهات برمجة التطبيقات الخاصة بالنماذج (مثل GPT-4o) لإنتاج بيانات التدريب، مما يحد من إمكانية تدريبها على نطاق واسع. في هذا البحث، نستكشف تدريبًا على نطاق واسع للنماذج الكبيرة لغة الفيديو باستخدام نصوص محوسبة تلقائيًا من التعرف على الكلام (ASR) بتكاليف منخفضة. وبشكل خاص، نقترح منهجية تدريب مُتَدَفِّقة جديدة تُدمج بشكل كثيف كلمات ASR مع إطارات الفيديو وفقًا لتواريخها الزمنية. مقارنةً بالدراسات السابقة في تمثيل الرؤية واللغة باستخدام ASR، فإن منهجيتنا تتماشى بشكل طبيعي مع الخصائص التدفقية لـ ASR، مما يمكّن النموذج من تعلم نمذجة رؤية-لغة دقيقة ومرتبطة زمنيًا. ولدعم خوارزمية التدريب، نقدّم خط أنابيب لإنتاج البيانات لمعالجة مقاطع يوتيوب ونصوص الترجمة المغلقة (CC، المكافئة لـ ASR)، مما يؤدي إلى إنشاء مجموعة بيانات Live-CC-5M لمرحلة التدريب المسبق، وLive-WhisperX-526K لمرحلة التدريب المُوجَّه عالي الجودة (SFT). وبشكل لافت، فإن النموذج المُدرَّب مسبقًا باستخدام ASR فقط، LiveCC-7B-Base، يُظهر أداءً تنافسيًا في مهام الاستفسار العام عن الفيديو، ويُظهر أيضًا قدرة جديدة في التعليق المباشر على الفيديو. ولتقييم هذه القدرة، صممنا بعناية معيارًا جديدًا يُسمى LiveSports-3K، باستخدام نموذج لغة كبير كـ "قاضٍ" لقياس جودة التعليق الحر. أظهرت التجارب أن النموذج النهائي LiveCC-7B-Instruct يمكنه التفوق على نماذج متقدمة بحجم 72B (مثل Qwen2.5-VL-72B-Instruct وLLaVA-Video-72B) من حيث جودة التعليق، حتى أثناء العمل في الوضع الزمني الفعلي. وفي الوقت نفسه، حقق أداءً متميزًا على مستوى 7B/8B في معايير الفيديو الشهيرة مثل VideoMME وOVOBench، مما يُظهر التعميم الواسع لمنهجيتنا. تم إتاحة جميع الموارد المتعلقة بهذا البحث عبر الرابط التالي: https://...


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp