يجمع نموذج توليد الفيديو مفتوح المصدر من Meituan، LongCat-Video، بين توليد الفيديو المستند إلى النص وتوليد الفيديو المستند إلى الصور وقدرات استمرار الفيديو، مما ينافس النماذج مفتوحة المصدر والمغلقة المصدر من الدرجة الأولى.

تهدف نماذج العالم إلى فهم بيئات العالم الواقعية المعقدة ومحاكاتها والتنبؤ بها، مما يُشكل أساسًا أساسيًا للتطبيق الفعال للذكاء الاصطناعي في سيناريوهات العالم الواقعي. في هذا الإطار، تُكثّف نماذج توليد الفيديو، من خلال عملية توليدها، وتتعلم تدريجيًا أشكالًا معرفية متنوعة، بما في ذلك العناصر الهندسية والدلالية والفيزيائية.ومن ثم، فإنها تعتبر بمثابة طريق رئيسي لبناء نموذج عالمي، ومن المتوقع أن تحقق في نهاية المطاف محاكاة وتنبؤا فعالين بديناميكيات العالم المادي الحقيقي.في مجال إنشاء الفيديو، يعد تحقيق قدرات إنشاء مقاطع فيديو طويلة فعالة أمرًا مهمًا بشكل خاص.

وبناء على هذا،أطلقت شركة Meituan نموذجها الأحدث لتوليد الفيديو، LongCat-Video، والذي يهدف إلى التعامل مع مهام توليد الفيديو المختلفة من خلال بنية موحدة، بما في ذلك تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، واستمرار الفيديو.وبناءً على أدائها المتميز في مهام إنشاء الفيديو العامة، يعتبر فريق البحث LongCat-Video بمثابة خطوة قوية نحو بناء "نموذج عالمي" حقيقي.

تتضمن الميزات الرئيسية لبرنامج LongCat-Video ما يلي:

* هندسة موحدة للمهام المتعددة. يوحد LongCat-Video مهام الفيديو المستند إلى النص والفيديو المستند إلى الصورة ومهام استمرار الفيديو ضمن إطار عمل واحد لإنشاء الفيديو، مع التمييز بينها من خلال عدد الإطارات الشرطية.

* القدرة على إنشاء فيديو طويل. تم تدريب LongCat-Video مسبقًا استنادًا إلى مهام استمرار الفيديو، مما يتيح له إنشاء مقاطع فيديو مدتها عدة دقائق وتجنب تشويه اللون أو أشكال أخرى من تدهور جودة الصورة بشكل فعال أثناء عملية التوليد.

* التفكير الفعال. يستخدم LongCat-Video استراتيجية "من الخشن إلى الدقيق" لإنشاء فيديو بدقة 720 بكسل و30 إطارًا في الثانية في بضع دقائق فقط، مما يؤدي إلى تحسين دقة وكفاءة إنشاء الفيديو بشكل فعال.

* الأداء القوي لإطار التعلم المعزز متعدد المكافآت (RLHF). يستخدم LongCat-Video نظام تحسين السياسة النسبية للمجموعة (GRPO)، والذي يعمل على تعزيز أداء النموذج بشكل أكبر باستخدام مكافآت متعددة، مما يحقق أداءً يضاهي نماذج إنشاء الفيديو مفتوحة المصدر الرائدة وأحدث الحلول التجارية.

استنادًا إلى تقييمات أداء المعايير الداخلية، يعمل LongCat-Video بشكل جيد في مهام الفيديو المحكم.إنه يعمل بشكل استثنائي من حيث الجودة المرئية والحركية، حيث يسجل نتائج تكاد تكون متساوية مع الطراز الأعلى، Wan2.2.وحقق النموذج أيضًا نتائج قوية في محاذاة النص والجودة الشاملة، مما يوفر للمستخدمين تجربة متسقة وعالية الجودة عبر أبعاد متعددة.

نتائج تقييم MOS لفيديو Wensheng بناءً على المعايير الداخلية

في مهمة تحويل الصورة إلى فيديو، يتميز LongCat-Video بجودة بصرية عالية، متفوقًا على نماذج أخرى مثل Wan2.2، ومُظهرًا ميزته الكبيرة في إنتاج صور عالية الجودة. مع ذلك، لا يزال هناك مجال للتحسين في مجالات مثل محاذاة الصورة والجودة العامة.

نتائج تقييم MOS للفيديو المبني على الصور استنادًا إلى المعايير الداخلية

شهدت Cloudflare مؤخرًا انقطاعًا في الخدمة، مما تسبب في انقطاعات في الاتصال بمجموعة واسعة من تطبيقات الإنترنت، بما في ذلك X وChatGPT وCanva. لنلقِ نظرة على كيفية محاكاة LongCat-Video لاستجابة الانقطاع 👇

حاليًا، يتوفر "فيديو LongCat: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي" في قسم "البرامج التعليمية" بموقع HyperAI الإلكتروني. انقر على الرابط أدناه لتجربة البرنامج التعليمي للنشر بنقرة واحدة ⬇️

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد "LongCat-Video: نموذج توليد الفيديو بالذكاء الاصطناعي مفتوح المصدر من Meituan"، أو انتقل إلى صفحة "البرامج التعليمية" وحددها، ثم انقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد الصورتين "NVIDIA RTX PRO 6000 Blackwell" و"PyTorch"، ثم اختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

٤. انتظر تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. بمجرد تغيير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال السريع بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي.

عرض التأثير

بعد دخول واجهة العرض التوضيحي، يمكنك الاختيار من بين أربعة أمثلة للاختبار: تحويل الصورة إلى فيديو، تحويل النص إلى فيديو، فيديو طويل، وتكملة الفيديو. تختار هذه المقالة تحويل الصورة إلى فيديو كمثال.

بعد تحميل الصورة النموذجية، انقر على "مطالبة". في "الخيارات المتقدمة"، يمكنك ضبط المزيد من الإعدادات لمعلمات مثل المطالبات السلبية، والدقة، ونقطة بداية العشوائية في عملية التوليد، لتحقيق تأثير توليد مثالي.

شهدت Cloudflare مؤخرًا انقطاعًا في الخدمة، مما تسبب في انقطاع الاتصال بمجموعة واسعة من تطبيقات الإنترنت، بما في ذلك X وChatGPT وCanva. لنلقِ نظرة على محاكاة LongCat-Video لردود فعل المستخدمين على الانقطاع 👇

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

HyperAI

يجمع نموذج توليد الفيديو مفتوح المصدر من Meituan، LongCat-Video، بين توليد الفيديو المستند إلى النص وتوليد الفيديو المستند إلى الصور وقدرات استمرار الفيديو، مما ينافس النماذج مفتوحة المصدر والمغلقة المصدر من الدرجة الأولى.

منذ 7 أشهر

تتضمن الميزات الرئيسية لبرنامج LongCat-Video ما يلي:

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

تشغيل تجريبي

عرض التأثير

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

يجمع نموذج توليد الفيديو مفتوح المصدر من Meituan، LongCat-Video، بين توليد الفيديو المستند إلى النص وتوليد الفيديو المستند إلى الصور وقدرات استمرار الفيديو، مما ينافس النماذج مفتوحة المصدر والمغلقة المصدر من الدرجة الأولى.

منذ 7 أشهر

تتضمن الميزات الرئيسية لبرنامج LongCat-Video ما يلي:

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

تشغيل تجريبي

عرض التأثير

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/xbXLf

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

Command Palette

Command Palette

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

Command Palette

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

طورت جامعة كورنيل منصة EMSeek، وهي منصة متعددة العوامل يمكنها تحويل صور المجهر الإلكتروني إلى رؤى في علم المواد في غضون 2-5 دقائق فقط.