Command Palette
Search for a command to run...
مِيداس: التوليد الرقمي المتعدد الوسائط للإنسان التفاعلي من خلال توليد الفيديو التلقائي في الوقت الفعلي
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

الملخص
في الآونة الأخيرة، لاقت توليد الفيديو البشري الرقمي التفاعلي اهتمامًا واسعًا وحققت تقدمًا ملحوظًا. ومع ذلك، لا يزال بناء نظام عملي قادر على التفاعل مع إشارات دخول متنوعة في الزمن الحقيقي تحديًا كبيرًا أمام الطرق الحالية، التي تعاني غالبًا من تأخير عالٍ، وتكاليف حسابية كبيرة، وتحكم محدود. في هذا العمل، نقدم إطارًا لتكوين الفيديو ذاتي التسلسل (autoregressive) يتيح التحكم متعدد الوسائط التفاعلي واستخلاصًا منخفض التأخير بطريقة تدفقية (streaming). وبتعديلات بسيطة على نموذج اللغة الكبير القياسي (LLM)، يقبل إطارنا ترميزات شرطية متعددة الوسائط، تشمل الصوت، وضعية الجسم، والنص، ويُنتج تمثيلات مكانيّة ودلالية متسقة، لتوجيه عملية إزالة الضوضاء في وحدة التشتت (diffusion head). ولدعم هذا، قمنا ببناء مجموعة بيانات حوارية كبيرة بحجم يقارب 20,000 ساعة من مصادر متعددة، مما يوفر سيناريوهات حوارية غنية للتدريب. كما قمنا بتطوير مُشفّر تلقائي عميق (deep compression autoencoder) بنسبة تقليل تصل إلى 64 مرة، مما يخفف بشكل فعّال من العبء الناتج عن الاستنتاج على مدى طويل في النموذج ذاتي التسلسل. وأظهرت تجارب واسعة في المحادثات الثنائية، وتركيب بشرٍ متعدد اللغات، والنموذج التفاعلي للعالم، المزايا المتميزة لنهجنا من حيث التأخير المنخفض، والكفاءة العالية، والتحكم الدقيق متعدد الوسائط.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.