منذ 2 أشهر
استراتيجيات التدريب لتحسين قراءة الشفاه
Ma, Pingchuan ; Wang, Yujiang ; Petridis, Stavros ; Shen, Jie ; Pantic, Maja

الملخص
تم اقتراح عدة استراتيجيات تدريبية ونماذج زمنية مؤخرًا لقراءة الشفاه للكلمات المنفصلّة في سلسلة من الأعمال المستقلة. ومع ذلك، لم يتم استكشاف إمكانات الجمع بين أفضل هذه الاستراتيجيات وفحص تأثير كل منها. في هذا البحث، نقوم بدراسة منهجية لأداء أحدث أساليب زيادة البيانات، والنماذج الزمنية،以及其他训练策略,مثل自蒸馏(self-distillation)和使用单词边界指示器(word boundary indicators)。研究结果表明,时间遮罩(Time Masking - TM)是最重要的数据增强方法,其次是mixup,而密集连接的时间卷积网络(Densely-Connected Temporal Convolutional Networks - DC-TCN)是用于孤立词唇读的最佳时间模型。使用自蒸馏和单词边界指示器也有益处,但程度较小。所有上述方法的结合导致了93.4%的分类准确率,这比在LRW数据集上的当前最先进性能绝对提高了4.6%。通过在其他数据集上进行预训练,性能可以进一步提高到94.1%。对各种训练策略的错误分析显示,性能的提高是通过增加难以识别的单词的分类准确率来实现的。注:为了确保专业术语的准确性并符合学术或科技新闻的表达方式,在某些不常见的术语后添加了原文标注。