تعلم التمثيلات البصرية والسمعية للكلام من البيانات الخام بشكل مشترك

نقدم RAVEn، وهي طريقة متعددة الوسائط ذاتية الإشراف لتعلم تمثيلات الكلام البصرية والسمعية بشكل مشترك. يشمل هدفنا للتدريب المسبق ترميز المدخلات المخفية، ثم التنبؤ بالأهداف السياقية التي تولدها مرممات الزخم البطيئة. بفضل الاختلافات الجوهرية بين الفيديو والصوت، يكون تصميمنا غير متماثل فيما يتعلق بمهمات النصوص الأولية للوسائط الثنائية: بينما يقوم المسار السمعي بالتنبؤ بالأهداف البصرية والسمعية، فإن المسار البصري يتوقع الأهداف السمعية فقط. نلاحظ نتائج قوية في إعدادات البيانات المصنفة ذات الموارد المنخفضة والعالية عند ضبط دقيق لمرممات الصور والكلام الناتجة من مرحلة واحدة للتدريب المسبق، حيث يتم تدريب المرممات بشكل مشترك. وبشكل ملحوظ، يتفوق RAVEn على جميع الطرق الذاتية الإشراف في مجال التعرف على الكلام البصري (VSR) على LRS3، وعند الجمع بين RAVEn والتدريب الذاتي باستخدام 30 ساعة فقط من البيانات المصنفة,则性能甚至超过了最近在90,000小时非公开数据上训练的半监督方法。同时,我们在LRS3低资源设置中实现了听觉语音识别(以及VSR)的最先进结果。我们的研究结果表明,从原始视频和音频中完全学习强大的语音表示是可行的,即无需依赖手工制作的特征。代码和模型可在https://github.com/ahaliassos/raven获得。请注意,上述翻译中的“则性能甚至超过了”部分可能更适合改为更符合阿拉伯语表达习惯的形式:وفي الوقت نفسه، حققنا نتائجًا رائدة في إعداد LRS3 ذي الموارد المنخفضة للتعرف على الكلام السمعي (وكذلك VSR). نتائجنا تشير إلى جدوى تعلم تمثيلات الكلام القوية تمامًا من الفيديو والصوت الخام، أي دون الاعتماد على الخصائص المصممة يدويًا. يمكن الحصول على الكود والنماذج من https://github.com/ahaliassos/raven.希望这能帮助到您!如果有任何进一步的要求或需要调整的地方,请随时告知。