تعلم الإيماءات ثلاثية الأبعاد المدعومة بالكلام من الفيديو

نقترح أول نهج لتصنيع الجسم والحركة اليدوية المتناسقة ثلاثية الأبعاد، بالإضافة إلى الرسوم المتحركة للوجه والرأس ثلاثية الأبعاد، لشخصية افتراضية تلقائيًا وبشكل مشترك من مدخلات الكلام. يستخدم خوارزمياتنا هندسة شبكات الاعصاب المت convoled (CNN) التي تستفيد من الارتباط الداخلي بين تعبيرات الوجه وحركات اليدين. يعتبر تصنيع حركات الجسم في المحادثة مشكلة متعددة الأوضاع لأن العديد من الحركات المشابهة يمكن أن تصاحب الكلام المدخل بنفس القدر من المعقولية. لتصنيع حركات الجسم المعقولة في هذا الإطار، ندرب نموذجًا يعتمد على شبكة التوليد التنافسية (GAN) والذي يقيس مدى معقولية التسلسلات المنتجة للحركة الجسدية ثلاثية الأبعاد عند ربطها بميزات الصوت المدخل. كما نقدم طريقة جديدة لإنشاء مكتبة كبيرة تحتوي على أكثر من 33 ساعة من بيانات الجسم واليدين والوجه المصححة من مقاطع الفيديو العفوية للأشخاص الذين يتحدثون. لهذه الغاية، نطبق أحدث الأساليب أحادية العين لتقدير وضع الجسم واليدين ثلاثي الأبعاد وكذلك التقاط أداء الوجه الكثيف ثلاثي الأبعاد للمكتبة الفيديوية. بهذه الطريقة، يمكننا التدريب على كميات أكبر بكثير من البيانات مقارنة بالخوارزميات السابقة التي تعتمد على حلول التقاط الحركة المعقدة داخل الاستوديوهات، وبالتالي تدريب خوارزميات تصنيع أكثر تعبيرًا. تظهر تجاربنا ودراسة المستخدمين جودة النموذج الأولي لأفضل ما هو موجود لدينا في تصنيع رسوم الشخصيات الكاملة ثلاثية الأبعاد من الكلام.请注意,"convoled" 这个词在原文中可能是拼写错误,正确的应该是 "convolutional"。因此,在翻译时我将其修正为 "شبكات الاعصاب المت convoled" 应该是 "شبكات الاعصاب المتلافئة (Convolutional Neural Networks, CNN)"。以下是修正后的版本:نقترح أول نهج لتصنيع الجسم والحركة اليدوية المتناسقة ثلاثية الأبعاد، بالإضافة إلى الرسوم المتحركة للوجه والرأس ثلاثية الأبعاد، لشخصية افتراضية تلقائيًا وبشكل مشترك من مدخلات الكلام. يستخدم خوارزمياتنا هندسة شبكات الاعصاب المتلافئة (CNN) التي تستفيد من الارتباط الداخلي بين تعبيرات الوجه وحركات اليدين. يعتبر تصنيع حركات الجسم في المحادثة مشكلة متعددة الأوضاع لأن العديد من الحركات المشابهة يمكن أن تصاحب الكلام المدخل بنفس القدر من المعقولية. لتصنيع حركات الجسم المعقولة في هذا الإطار، ندرب نموذجًا يعتمد على شبكة التوليد التنافسية (GAN) والذي يقيس مدى معقولية التسلسلات المنتجة للحركة الجسدية ثلاثية الأبعاد عند ربطها بميزات الصوت المدخل. كما نقدم طريقة جديدة لإنشاء مكتبة كبيرة تحتوي على أكثر من 33 ساعة من بيانات الجسم واليدين والوجه المصححة من مقاطع الفيديو العفوية للأشخاص الذين يتحدثون. لهذه الغاية، نطبق أحدث الأساليب أحادية العين لتقدير وضع الجسم واليدين ثلاثي الأبعاد وكذلك التقاط أداء الوجه الكثيف ثلاثي الأبعاد للمكتبة الفيديوية. بهذه الطريقة، يمكننا التدريب على كميات أكبر بكثير من البيانات مقارنة بالخوارزميات السابقة التي تعتمد على حلول التقاط الحركة المعقدة داخل الاستوديوهات، وبالتالي تدريب خوارزميات تصنيع أكثر تعبيرًا. تظهر تجاربنا ودراسة المستخدمين جودة النموذج الأولي لأفضل ما هو موجود لدينا في تصنيع رسوم الشخصيات الكاملة ثلاثية الأبعاد من الكلام.