HyperAIHyperAI
منذ 17 أيام

Audio2Gestures: إنشاء إيماءات متنوعة من الصوت الصوتي باستخدام مُشفِّرات التوليد التلقائي المتغيرة الشرطية

Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao
Audio2Gestures: إنشاء إيماءات متنوعة من الصوت الصوتي باستخدام مُشفِّرات التوليد التلقائي المتغيرة الشرطية
الملخص

إن إنشاء إيماءات حوارية من صوت الكلام يُعد تحديًا بسبب العلاقة متعددة-إلى-واحدة المتأصلة بين الصوت والحركة الجسدية. تعتمد الشبكات العصبية التقليدية (CNNs/RNNs) على افتراض التماثل الواحد-إلى-واحد، وبالتالي تميل إلى التنبؤ بالقيمة المتوسطة لجميع الحركات المستهدفة الممكنة، مما يؤدي إلى حركات مسطحة أو مملة أثناء التنبؤ. وللتغلب على هذه المشكلة، نقترح نموذجًا جديدًا يُسمى "مُشفّر تلقائي متغير مشروط" (Conditional Variational Autoencoder - VAE) يُعدّل بشكل صريح العلاقة متعددة-إلى-واحدة بين الصوت والحركة من خلال تقسيم الشفرة المتقاطعة بين الوسائط (الكود المتقاطع) إلى جزأين: كود مشترك و كود مخصص للحركة. يُركّز الكود المشترك على نمذجة الارتباط القوي بين الصوت والحركة (مثل تزامن نبضات الصوت والحركة)، بينما يُسجّل الكود المخصص للحركة معلومات حركية متنوعة بمعزل عن الصوت. ومع ذلك، فإن تقسيم الكود المختبئ إلى جزأين يُشكّل صعوبة في تدريب نموذج VAE. ولتحسين عملية التدريب، تم تصميم شبكة تحويلية تُسهّل العينة العشوائية، إلى جانب تقنيات إضافية تشمل خسارة حركة مُرخّصة، وقيود الدراجة (bicycle constraint)، وLoss التباين (diversity loss). وقد أثبتت التجارب على مجموعات بيانات حركية ثنائية وثلاثية الأبعاد أن طريقة التنبؤ لدينا تُنتج حركات أكثر واقعية ومتنوعة مقارنةً بالأساليب الحالية المتطورة، من حيث الجوانب الكمية والنوعية. وأخيرًا، نُظهر أن طريقة التنبؤ هذه يمكن استخدامها بسهولة لإنشاء تسلسلات حركية مخصصة حسب مقاطع حركية محددة من قبل المستخدم على المحور الزمني. يمكن الاطلاع على الشيفرة والنتائج الإضافية عبر الرابط: https://jingli513.github.io/audio2gestures.

Audio2Gestures: إنشاء إيماءات متنوعة من الصوت الصوتي باستخدام مُشفِّرات التوليد التلقائي المتغيرة الشرطية | أحدث الأوراق البحثية | HyperAI