HyperAIHyperAI
منذ 2 أشهر

استخدام التعلم الذاتي الأحادي النمط للاعتراف بالكلام السمعي-البصري متعدد النماذج

Pan, Xichen ; Chen, Peiyu ; Gong, Yichen ; Zhou, Helong ; Wang, Xinbing ; Lin, Zhouhan
استخدام التعلم الذاتي الأحادي النمط للاعتراف بالكلام السمعي-البصري متعدد النماذج
الملخص

تتطلب تدريب النماذج المستندة إلى المتحولات (Transformers) كميات كبيرة من البيانات، في حين أن الحصول على بيانات متماثلة ومعمّلة في البيئات متعددة الوسائط أمر يكلّف الكثير، خاصةً فيما يتعلق بفهم الكلام السمعي-البصري (AVSR). لذلك، من المنطقي جدًا الاستفادة من البيانات غير المعمّلة أحادية الوسيلة. من الجانب الآخر، رغم أن فعالية التعلم الذاتي على نطاق واسع قد تم إثباتها بشكل جيد في كل من الوسائط السمعية والبصرية، فإن كيفية دمج تلك النماذج المُدربة مسبقًا في سيناريوهات متعددة الوسائط لا تزال مجالًا قليل البحث. في هذا العمل، نجحنا في استغلال التعلم الذاتي أحادي الوسيلة لتعزيز فهم الكلام السمعي-البصري متعدد الوسائط. وبشكل خاص، يتم تدريب الواجهات الأمامية للصوت والصورة على قواعد بيانات أحادية الوسيلة ذات نطاق واسع، ثم نقوم بدمج مكونات كلتا الواجهتين الأماميتين في إطار عمل أكبر متعدد الوسائط الذي يتعلم التعرف على البيانات السمعية-البصرية المتوازية إلى حروف عبر مزيج من فك الشفرة باستخدام CTC (Connectionist Temporal Classification) و seq2seq (تسلسل إلى تسلسل). نوضح أن كلا المكونين اللذين تم اشتقاقهما من التعلم الذاتي أحادي الوسيلة يعملان معًا بشكل جيد، مما يؤدي إلى تحقيق الإطار العمل متعدد الوسائط لنتائج تنافسية عبر التعديل الدقيق. وقد تم التحقق من صحة نموذجنا تجريبيًا في مهمتين على مستوى الكلمة وعلى مستوى الجملة. وبشكل خاص، حتى بدون نموذج لغوي خارجي، يرفع النموذج المقترح لدينا الأداء الرائد على مجموعة بيانات Lip Reading Sentences 2 (LRS2) المعترف بها على نطاق واسع بنسبة كبيرة تبلغ 30% تحسينًا نسبيًا.