Command Palette
Search for a command to run...
توليد الحركة البشرية ثلاثية الأبعاد الشاملة من الكلام
توليد الحركة البشرية ثلاثية الأبعاد الشاملة من الكلام
Hongwei Yi Hualin Liang Yifei Liu Qiong Cao Yandong Wen Timo Bolkart Dacheng Tao Michael J. Black
الملخص
يتناول هذا العمل مشكلة إنشاء حركات الجسم الشاملة ثلاثية الأبعاد من الكلام البشري. بالاعتماد على تسجيل صوتي، نقوم بتركيب سلاسل من أوضاع الجسم ثلاثية الأبعاد، وحركات اليدين، وتعبيرات الوجه التي تكون واقعية ومتنوعة. لتحقيق ذلك، نقوم أولاً ببناء مجموعة بيانات عالية الجودة تتضمن شبكات الجسم الشاملة ثلاثية الأبعاد مع الكلام المتزامن. ثم نحدد إطارًا جديدًا لإنشاء الحركة من الكلام حيث يتم نمذجة الوجه والجسم واليدين بشكل منفصل. يعود الفصل في النمذجة إلى حقيقة أن حركة الوجه ترتبط ارتباطًا قويًا بالكلام البشري، بينما تكون أوضاع الجسم وحركات اليدين أقل ارتباطًا. وبشكل محدد، نستخدم كودير ذاتي (Autoencoder) لحركات الوجه، وكودير ذاتي متغير متجه الكمية التكويني (Compositional Vector-Quantized Variational Autoencoder - VQ-VAE) لأوضاع الجسم وحركات اليدين. يعتبر الكودير الذاتي المتجه الكمية التكويني (VQ-VAE) ركيزة أساسية لإنتاج نتائج متنوعة. بالإضافة إلى ذلك، نقترح نموذجًا ذاتيًا شرطيًا متقاطعًا يولد أوضاع الجسم وحركات اليدين، مما يؤدي إلى حركات متماسكة وواقعية. تثبت التجارب الواسعة والدراسات المستخدمين أن النهج المقترح لدينا يحقق أفضل الأداء على مستوى النوعية والكمية. سيتم إطلاق مجموعة البيانات الجديدة وكودنا للأغراض البحثية على الرابط https://talkshow.is.tue.mpg.de.