HyperAIHyperAI

Command Palette

Search for a command to run...

توليد الحركة البشرية ثلاثية الأبعاد الشاملة من الكلام

Hongwei Yi Hualin Liang Yifei Liu Qiong Cao Yandong Wen Timo Bolkart Dacheng Tao Michael J. Black

الملخص

يتناول هذا العمل مشكلة إنشاء حركات الجسم الشاملة ثلاثية الأبعاد من الكلام البشري. بالاعتماد على تسجيل صوتي، نقوم بتركيب سلاسل من أوضاع الجسم ثلاثية الأبعاد، وحركات اليدين، وتعبيرات الوجه التي تكون واقعية ومتنوعة. لتحقيق ذلك، نقوم أولاً ببناء مجموعة بيانات عالية الجودة تتضمن شبكات الجسم الشاملة ثلاثية الأبعاد مع الكلام المتزامن. ثم نحدد إطارًا جديدًا لإنشاء الحركة من الكلام حيث يتم نمذجة الوجه والجسم واليدين بشكل منفصل. يعود الفصل في النمذجة إلى حقيقة أن حركة الوجه ترتبط ارتباطًا قويًا بالكلام البشري، بينما تكون أوضاع الجسم وحركات اليدين أقل ارتباطًا. وبشكل محدد، نستخدم كودير ذاتي (Autoencoder) لحركات الوجه، وكودير ذاتي متغير متجه الكمية التكويني (Compositional Vector-Quantized Variational Autoencoder - VQ-VAE) لأوضاع الجسم وحركات اليدين. يعتبر الكودير الذاتي المتجه الكمية التكويني (VQ-VAE) ركيزة أساسية لإنتاج نتائج متنوعة. بالإضافة إلى ذلك، نقترح نموذجًا ذاتيًا شرطيًا متقاطعًا يولد أوضاع الجسم وحركات اليدين، مما يؤدي إلى حركات متماسكة وواقعية. تثبت التجارب الواسعة والدراسات المستخدمين أن النهج المقترح لدينا يحقق أفضل الأداء على مستوى النوعية والكمية. سيتم إطلاق مجموعة البيانات الجديدة وكودنا للأغراض البحثية على الرابط https://talkshow.is.tue.mpg.de.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توليد الحركة البشرية ثلاثية الأبعاد الشاملة من الكلام | مستندات | HyperAI