الربط الترابطي متعدد الوسائط من خلال الذاكرة: إعادة تذكر الصوت الصوتي من فيديو الوجه

في هذه الورقة، نقدم إطارًا جديدًا للربط متعدد الأوجه الصوتي البصري، والذي يمكنه الاستفادة من المعلومات الصوتية والبصرية معًا، حتى عند توفر إدخالات أحادية الوجهة. نستخدم شبكة ذاكرة تخزن تمثيلات الوجهة المصدرية (أي: البصرية) وتمثيلات الوجهة الهدفية (أي: الصوتية)، حيث تمثل تمثيلات الوجهة المصدرية ما نُقدَّم له، بينما تمثل تمثيلات الوجهة الهدفية ما نسعى للحصول عليه من خلال الشبكة الذاكرة. ثم نُنشئ جسرًا ارتباطيًا بين الذاكرة المصدرية والذاكرة الهدفية، مع أخذ العلاقة المتبادلة بين الذاكرةين بعين الاعتبار. من خلال تعلُّم هذه العلاقة المتبادلة عبر الجسر الارتباطي، يمكن للإطار المقترح استخلاص تمثيلات الوجهة الهدفية داخل الشبكة الذاكرة، حتى مع إدخال الوجهة المصدرية فقط، مما يوفر معلومات غنية لمهامه التالية. ونطبّق الإطار المقترح على مهامتين: قراءة الشفاه وإعادة بناء الصوت من فيديو صامت. وباستخدام الجسر الارتباطي المقترح وشبكات الذاكرة المخصصة لكل وجهة، يتم غنى كل مهمة بمعلومات سياقية صوتية مسترجعة، مما يؤدي إلى تحقيق أداءً يُعدّ من أفضل الأداءات الحالية. كما نؤكد أن الجسر الارتباطي يربط بشكل صحيح بين الذاكرة المصدرية والذاكرة الهدفية.