ES3: تطوير التعلم ذاتي التوجيه لتمثيلات صوتية بصرية مقاومة للضوضاء

نُقدّم استراتيجية جديدة تُسمى ES3 لتعلم التمثيلات الصوتية البصرية المقاومة في مجال التعلم ذاتي القيادة من مقاطع فيديو للوجوه المتحركة غير المُصنّفة. في حين تعتمد العديد من الطرق الحديثة لهذا المهمة بشكل رئيسي على توجيه عملية التعلّم باستخدام وسيلة الصوت وحدها لالتقاط المعلومات المشتركة بين الصوت والصورة، نعيد صياغة المشكلة كاكتساب معلومات الكلام المشتركة، والمميزة لكل وسيلة (مميزة وفق الوسيلة)، والمتميزة تآزرًا (التكاملية)، بهدف معالجة التفاوت الداخلي بين الوسائط. استنادًا إلى هذا الت formulization، نقترح استراتيجية "متغيرة" جديدة تبني تدريجيًا تمثيلات صوتية-بصرية متكاملة تكون قوية في كل من التمثيلات الأحادية (الصوتية والبصرية) والثنائية (الصوتية-البصرية). أولاً، نستفيد من الوسيلة الصوتية التي يسهل تعلّمها لبدء تمثيلات الصوت والصورة من خلال التقاط معلومات الكلام المميزة للصوت والمشتركة. ثم نُضِف معلومات الكلام المميزة للصورة ونُعزز تمثيلات الصوت والصورة على أساس المعرفة المشتركة المكتسبة سابقًا. وأخيرًا، نُكثّف المعلومات الكلية للكلام الصوتي-البصري، بما في ذلك المعلومات التآزرية، للحصول على تمثيلات قوية وشاملة. نُنفّذ ES3 كإطار بسيط من نوع سياميز، وتشير التجارب على معايير اللغة الإنجليزية وبيانات من Mandarin بحجم كبير تم إسهامًا جديدًا إلى فعالية النموذج. وبشكل خاص، على LRS2-BBC، فإن أصغر نموذج لدينا يُقاس بمستوى النماذج الراقية (SoTA) رغم استخدامه فقط نصف عدد المعاملات وثمن كمية البيانات غير المصنفة (223 ساعة).