HyperAIHyperAI
منذ 2 أشهر

التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات

Ma, Pingchuan ; Petridis, Stavros ; Pantic, Maja
التعرف على الكلام السمعي البصري من البداية إلى النهاية باستخدام المطابقات
الملخص

في هذا العمل، نقدم نموذجًا هجينًا يجمع بين CTC/الانتباه (Attention) يستند إلى ResNet-18 ومتغير التحويل المدعم بالتحويلات (Convolution-augmented transformer) المعروف بـ Conformer، والذي يمكن تدريبه بطريقة شاملة من البداية إلى النهاية (end-to-end). وبشكل خاص، يتعلم مُشفر الصوت والصورة استخراج الخصائص مباشرة من البكسلات الخام وأشكال الموجات الصوتية، على التوالي، والتي يتم إدخالها بعد ذلك إلى Conformers ومن ثم تتم عملية الدمج عبر شبكة متعددة الطبقات (Multi-Layer Perceptron - MLP). يتعلم النموذج التعرف على الحروف باستخدام مزيج من CTC وآلية الانتباه. نوضح أن التدريب الشامل من البداية إلى النهاية، بدلاً من استخدام الخصائص البصرية المحسوبة مسبقًا وهو أمر شائع في الأدبيات العلمية، واستخدام Conformer بدلاً من شبكة متكررة (recurrent network)، واستخدام نموذج لغوي مستند إلى التحويلات (transformer-based language model)، يحسن بشكل كبير أداء نموذجنا. نقدم نتائج على أكبر قواعد بيانات متاحة للجمهور للاعتراف بالكلام على مستوى الجملة، وهي Lip Reading Sentences 2 (LRS2) وLip Reading Sentences 3 (LRS3)، على التوالي. تظهر النتائج أن النماذج المقترحة لدينا ترفع مستوى الأداء الرائد بمقدار كبير في التجارب التي تعتمد فقط على الصوت، أو فقط على الصورة، أو على كليهما معًا.