HyperAIHyperAI
منذ 18 أيام

إعادة بناء الكلام باستخدام الصوت التذكاري من خلال الذاكرة الصوتية البصرية

{Yong Man Ro, Se Jin Park, Minsu Kim, Joanna Hong}
الملخص

يهدف هذا العمل إلى إعادة بناء الكلام من مقاطع فيديو صامتة، بشكل يعتمد على المتكلم ويستقل عنه. على عكس الدراسات السابقة التي كانت محدودة في الغالب ببيئة تعتمد على المتكلم، نقترح ما يُسمى بذاكرة الصوت البصري (Visual Voice memory) لإعادة استرجاع المعلومات الصوتية الأساسية، بهدف إنتاج كلام مناسب لمتحدثين مختلفين، وحتى لمتحدثين لم يُرَ من قبل. تعتمد الذاكرة المقترحة على معلومات صوتية إضافية تتوافق مع الحركات الوجهية المدخلة، وتخزن السياقات الصوتية التي يمكن استرجاعها باستخدام الميزات البصرية المدخلة. بشكل خاص، تتضمن ذاكرة الصوت البصري فتحات ذاكرة للقيم (value memory slots) وفتحات ذاكرة للأساس (key memory slots)، حيث تُستخدم فتحات القيم لحفظ ميزات الصوت، بينما تُستخدم فتحات الأساس لتخزين الميزات البصرية في نفس الموضع الذي تم فيه حفظ الميزات الصوتية. وبتوجيه كل فتحة ذاكرة لحفظ الميزة المناسبة بشكل مناسب، يمكن للنموذج إنتاج كلام دقيق. وبالتالي، يستخدم نهجنا معلومات الفيديو والصوت أثناء التدريب، ولكن لا يتطلب أي إدخال صوتي إضافي أثناء الاستنتاج. تتمثل مساهماتنا الرئيسية في: (1) اقتراح ذاكرة الصوت البصري التي تُضفي معلومات غنية بالصوت تكمّل الميزات البصرية، مما يؤدي إلى إنتاج كلام عالي الجودة من مقاطع فيديو صامتة، و(2) تمكين التدريب على عدة متحدثين، وحتى على متحدثين لم يُرَ من قبل، من خلال حفظ الميزات الصوتية والمقابلات البصرية المقابلة لها. وقد قمنا بتحقق الإطار المقترح على مجموعتي بيانات GRID وLip2Wav، وبيّنا أن أداء طريقة لدينا يتفوق على الأداء السابق في كل من البيئات متعددة المتكلمين والمستقلة عن المتكلم. كما أظهرنا أن ذاكرة الصوت البصري تحتوي على معلومات ذات معنى تُمكّن من إعادة بناء الكلام بشكل فعّال.