HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة بناء الكلام باستخدام الصوت التذكاري من خلال الذاكرة الصوتية البصرية

Yong Man Ro Se Jin Park Minsu Kim Joanna Hong

الملخص

يهدف هذا العمل إلى إعادة بناء الكلام من مقاطع فيديو صامتة، بشكل يعتمد على المتكلم ويستقل عنه. على عكس الدراسات السابقة التي كانت محدودة في الغالب ببيئة تعتمد على المتكلم، نقترح ما يُسمى بذاكرة الصوت البصري (Visual Voice memory) لإعادة استرجاع المعلومات الصوتية الأساسية، بهدف إنتاج كلام مناسب لمتحدثين مختلفين، وحتى لمتحدثين لم يُرَ من قبل. تعتمد الذاكرة المقترحة على معلومات صوتية إضافية تتوافق مع الحركات الوجهية المدخلة، وتخزن السياقات الصوتية التي يمكن استرجاعها باستخدام الميزات البصرية المدخلة. بشكل خاص، تتضمن ذاكرة الصوت البصري فتحات ذاكرة للقيم (value memory slots) وفتحات ذاكرة للأساس (key memory slots)، حيث تُستخدم فتحات القيم لحفظ ميزات الصوت، بينما تُستخدم فتحات الأساس لتخزين الميزات البصرية في نفس الموضع الذي تم فيه حفظ الميزات الصوتية. وبتوجيه كل فتحة ذاكرة لحفظ الميزة المناسبة بشكل مناسب، يمكن للنموذج إنتاج كلام دقيق. وبالتالي، يستخدم نهجنا معلومات الفيديو والصوت أثناء التدريب، ولكن لا يتطلب أي إدخال صوتي إضافي أثناء الاستنتاج. تتمثل مساهماتنا الرئيسية في: (1) اقتراح ذاكرة الصوت البصري التي تُضفي معلومات غنية بالصوت تكمّل الميزات البصرية، مما يؤدي إلى إنتاج كلام عالي الجودة من مقاطع فيديو صامتة، و(2) تمكين التدريب على عدة متحدثين، وحتى على متحدثين لم يُرَ من قبل، من خلال حفظ الميزات الصوتية والمقابلات البصرية المقابلة لها. وقد قمنا بتحقق الإطار المقترح على مجموعتي بيانات GRID وLip2Wav، وبيّنا أن أداء طريقة لدينا يتفوق على الأداء السابق في كل من البيئات متعددة المتكلمين والمستقلة عن المتكلم. كما أظهرنا أن ذاكرة الصوت البصري تحتوي على معلومات ذات معنى تُمكّن من إعادة بناء الكلام بشكل فعّال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp