HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

مِيداس: التوليد الرقمي المتعدد الوسائط للإنسان التفاعلي من خلال توليد الفيديو التلقائي في الوقت الفعلي

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

مِيداس: التوليد الرقمي المتعدد الوسائط للإنسان التفاعلي من خلال توليد الفيديو التلقائي في الوقت الفعلي

الملخص

في الآونة الأخيرة، لاقت توليد الفيديو البشري الرقمي التفاعلي اهتمامًا واسعًا وحققت تقدمًا ملحوظًا. ومع ذلك، لا يزال بناء نظام عملي قادر على التفاعل مع إشارات دخول متنوعة في الزمن الحقيقي تحديًا كبيرًا أمام الطرق الحالية، التي تعاني غالبًا من تأخير عالٍ، وتكاليف حسابية كبيرة، وتحكم محدود. في هذا العمل، نقدم إطارًا لتكوين الفيديو ذاتي التسلسل (autoregressive) يتيح التحكم متعدد الوسائط التفاعلي واستخلاصًا منخفض التأخير بطريقة تدفقية (streaming). وبتعديلات بسيطة على نموذج اللغة الكبير القياسي (LLM)، يقبل إطارنا ترميزات شرطية متعددة الوسائط، تشمل الصوت، وضعية الجسم، والنص، ويُنتج تمثيلات مكانيّة ودلالية متسقة، لتوجيه عملية إزالة الضوضاء في وحدة التشتت (diffusion head). ولدعم هذا، قمنا ببناء مجموعة بيانات حوارية كبيرة بحجم يقارب 20,000 ساعة من مصادر متعددة، مما يوفر سيناريوهات حوارية غنية للتدريب. كما قمنا بتطوير مُشفّر تلقائي عميق (deep compression autoencoder) بنسبة تقليل تصل إلى 64 مرة، مما يخفف بشكل فعّال من العبء الناتج عن الاستنتاج على مدى طويل في النموذج ذاتي التسلسل. وأظهرت تجارب واسعة في المحادثات الثنائية، وتركيب بشرٍ متعدد اللغات، والنموذج التفاعلي للعالم، المزايا المتميزة لنهجنا من حيث التأخير المنخفض، والكفاءة العالية، والتحكم الدقيق متعدد الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مِيداس: التوليد الرقمي المتعدد الوسائط للإنسان التفاعلي من خلال توليد الفيديو التلقائي في الوقت الفعلي | الأوراق البحثية | HyperAI