HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 2 أيام

الروح: إ breathe الحياة في الإنسان الرقمي لرسوم متحركة متعددة الوسائط عالية الدقة على المدى الطويل

الروح: إ breathe الحياة في الإنسان الرقمي لرسوم متحركة متعددة الوسائط عالية الدقة على المدى الطويل

الملخص

نُقدّم إطارًا متعدد الوسائط لمحاكاة الإنسان الرقمي عالية الدقة على المدى الطويل، يُسمّى "سول" (Soul)، والذي يُولِّد مقاطع فيديو متماسكة من الناحية الدلالية من صورة شخصية لقطة واحدة، ونصوص توجيهية، وصوت، محقِّقًا مطابقة دقيقة لحركة الشفاه، وتعبيرات وجه واقعية، وحفظًا قويًا للهوية. وقد قمنا ببناء مجموعة بيانات "سول-1م" (Soul-1M)، التي تتضمّن مليون عينة مُعلَّمة بدقة، باستخدام خط أنابيب تلقائي دقيق للتصنيف (يغطي مشاهد الوجه، والجزء العلوي من الجسم، والجسم الكامل، والمشاهد متعددة الأشخاص)، بهدف التخفيف من نقص البيانات، كما قمنا بتصميم "سول-بنش" (Soul-Bench) بعناية لإجراء تقييم شامل وعادل لأساليب المحاكاة المُوجَّهة بالصوت أو النص. يُبنى النموذج على هيكل "وان2.2-5ب" (Wan2.2-5B)، مع دمج طبقات إدخال الصوت واستراتيجيات تدريب متعددة، إلى جانب استبدال قاعدة الرموز المُدرَكة للحد الأدنى (threshold-aware codebook replacement)، لضمان الاتساق في الإنتاج الطويل الأمد. وفي الوقت نفسه، تُستخدم تقنيات تقطيع الخطوات وتعديل معامل التوليد (step/CFG distillation) ونظام VAE خفيف الوزن لتحسين كفاءة الاستدلال، مما يحقق تسريعًا بنسبة 11.4 مرة مع فقدان ضئيل في الجودة. أظهرت التجارب الواسعة أن "سول" يتفوّق بشكل ملحوظ على النماذج المفتوحة المصدر والتجارية الرائدة حاليًا من حيث جودة الفيديو، ومطابقة الفيديو مع النص، وحفظ الهوية، ودقة مطابقة حركة الشفاه، مُبرِزًا تطبيقاته الواسعة في السياقات الواقعية مثل المحاور الافتراضية وإنتاج الأفلام.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية بالذكاء الاصطناعي
وحدات معالجة الرسوميات الجاهزة للاستخدام
أفضل تسعير

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الروح: إ breathe الحياة في الإنسان الرقمي لرسوم متحركة متعددة الوسائط عالية الدقة على المدى الطويل | الأوراق البحثية | HyperAI