HyperAI
منذ 19 ساعات

ARC-Hunyuan-Video-7B: فهم الفيديو المُنظم للفيديوهات القصيرة في العالم الحقيقي

Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
ARC-Hunyuan-Video-7B: فهم الفيديو المُنظم للفيديوهات القصيرة في العالم الحقيقي
الملخص

تُعتبر مقاطع الفيديو القصيرة التي يُنشئها المستخدمون في الواقع الحقيقي، وخاصة تلك التي تُوزع على منصات مثل "WeChat Channel" و"TikTok"، هي السائدة في الإنترنت المحمول. ومع ذلك، تفتقر النماذج الكبيرة متعددة الوسائط الحالية إلى القدرات الأساسية المتعلقة بالفهم المكاني والزمني الدقيق والعميق لمقاطع الفيديو، وهي أساس البحث الفعّال في الفيديو والترشيح، بالإضافة إلى تطبيقات الفيديو الجديدة. فهم مقاطع الفيديو القصيرة في الواقع الحقيقي يُعد تحديًا حقيقيًا نظرًا لعناصره البصرية المعقدة، وكتلته المعرفية العالية في الجوانب البصرية والصوتية، وسرعته المكثفة التي تركز على التعبير عن المشاعر ونقل الرأي. وهذا يتطلب استدلالًا متقدمًا لدمج المعلومات متعددة الوسائط بشكل فعّال، بما في ذلك البصريات والصوت والنصوص. في هذه الدراسة، نقدم نموذج "ARC-Hunyuan-Video"، وهو نموذج متعدد الوسائط يقوم معالجة الإشارات البصرية والصوتية والنصية من مدخلات الفيديو الخام بشكل متكامل لفهم مُنظم. يتميز هذا النموذج بقدراته على إنشاء عناوين مُرتبطة بالزمن على مقاطع الفيديو بجميع مستويات التفصيل، وملخصات الفيديو، والإجابة على الأسئلة المتعلقة بالفيديو بحرية، وتحديد الفيديو زمنيًا، وتحليل الفيديو. وباستخدام بيانات عالية الجودة من نظام ترقيم تلقائي، تم تدريب نموذجنا الصغير الذي يحتوي على 7 مليار معلمة من خلال برنامج تدريبي شامل: التدريب الأولي، التحسين بالتعليم الموجه، البدء البارد، التحسين بالتعلم التعزيزي (RL) بعد التدريب، والتحسين النهائي بالتعليم الموجه. وقد أظهرت التقييمات الكمية على المعيار الذي قدمته نحن "ShortVid-Bench" والمقارنة النوعية أدائه القوي في فهم الفيديو في الواقع الحقيقي، كما أنه يدعم المهام المختلفة دون تدريب مسبق أو مع التدريب المحدود بعينات قليلة. وحقق نموذجنا نتائج ملموسة وقابلة للقياس في تطبيقاته الإنتاجية في الواقع، وهو نجاح يدعمه كفاءته المميزة، حيث أظهرت اختبارات الضغط أن زمن الاستنتاج يتراوح بين 10 ثوانٍ فقط لفيديو مدته دقيقة واحدة على وحدة معالجة "H20".