HyperAIHyperAI

Command Palette

Search for a command to run...

كْلِينغ-Avatar: ترسيخ التعليمات متعددة الوسائط لتخليق تسلسلي لحركة الصورة الظلية الطويلة الأمد

الملخص

أحدث التطورات في إنشاء مقاطع فيديو للصورة الافتراضية المُحَفَّزة صوتيًا قد عززت بشكل كبير واقعية الصوت والصورة معًا. ومع ذلك، فإن الطرق الحالية تُعامل التوجيهات كمُسَارِّة منخفضة المستوى تُوجَّه بواسطة إشارات صوتية أو بصرية، دون نمذجة الغرض التواصلي الذي تُعبّر عنه هذه التوجيهات. ويؤدي هذا التقييد إلى تراجع في الترابط السردي وتعبير الشخصية. لسد هذه الفجوة، نُقدِّم "كلينغ-أفاتار" (Kling-Avatar)، وهي إطار عمل مُتسلسل جديد يُوحِّد فهم التعليمات متعددة الوسائط مع إنشاء صور واقعية فائقة الدقة. يعتمد نهجنا على نموذج ثنائي المراحل. في المرحلة الأولى، نصمم مُخرجًا يعتمد على نموذج لغوي كبير متعدد الوسائط (MLLM) يُولِّد فيديو مخططًا (Blueprint Video) مُشَرَّعًا على أساس إشارات توجيه متنوعة، مما يُمكِّن من التحكم في المعاني عالية المستوى مثل حركات الشخصية والعواطف. وفي المرحلة الثانية، نُولِّد عدة مقاطع فرعية بالتوازي باستخدام استراتيجية الإطار الأول والأخير، وذلك تحت إشراف إطارات المخطط الأساسية. يُحافظ هذا الإطار من العُمْق إلى التفاصيل الدقيقة، مع الحفاظ بدقة على النية عالية المستوى الكامنة وراء التعليمات متعددة الوسائط. كما تتيح بنية العمل المتوازية إنشاء مقاطع فيديو طويلة المدة بشكل سريع وثابت، مما يجعلها مناسبة لتطبيقات واقعية مثل البث المباشر للشخصية الافتراضية والفيديوهات اليومية (vlogging). ولتقييم منهجنا بشكل شمولي، قمنا بإنشاء معيار تقييم يضم 375 عينة مُختارة بعناية، تغطي طيفًا واسعًا من التوجيهات والسيناريوهات الصعبة. أظهرت التجارب الواسعة أن كلينغ-أفاتار قادر على إنتاج مقاطع فيديو حية وسلسة وطويلة المدة بجودة تصل إلى 1080 بكسل و48 إطارًا في الثانية، مع تحقيق أداءً متفوّقًا في دقة مطابقة الشفتين مع الصوت، والتعبير العاطفي والديناميكي، والتحكم في التوجيهات، وحفظ الهوية، والتعميم عبر المجالات المختلفة. تُرسي هذه النتائج كلينغ-أفاتار كمعيار جديد لتقنيات إنشاء الصورة الافتراضية المُحَفَّزة صوتيًا، المبنية على معنى دقيق وعالية الدقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp