HyperAIHyperAI
منذ شهر واحد

التعرف على الكلام السمعي البصري من البداية إلى النهاية

Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Feipeng Cai; Georgios Tzimiropoulos; Maja Pantic
التعرف على الكلام السمعي البصري من البداية إلى النهاية
الملخص

تم تقديم العديد من نماذج التعلم العميق من البداية إلى النهاية مؤخرًا، والتي تستخلص إما ميزات صوتية أو بصرية من الصور المدخلة أو الإشارات الصوتية وتنفذ التعرف على الكلام. ومع ذلك، فإن الأبحاث حول نماذج السمع والبصر من البداية إلى النهاية محدودة جدًا. في هذا العمل، نقدم نموذجًا سمعيًا بصريًا من البداية إلى النهاية يعتمد على شبكات البقايا (Residual Networks) ووحدات التكرار المتكررة ذات البوابات الثنائية (Bidirectional Gated Recurrent Units - BGRUs). حسب أفضل علم لنا، هذا هو أول نموذج دمج سمعي وبصري يتعلم بشكل متزامن استخراج الميزات مباشرة من بكسل الصور وإشارات الصوت ويقوم بالتعرف على الكلمات ضمن السياق في مجموعة بيانات عامة كبيرة متاحة للجمهور (LRW). يتكون النموذج من مسارين، أحدهما لكل وسيلة، يستخلسان الميزات مباشرة من المناطق الفموية والإشارات الصوتية الخام. يتم نمذجة الديناميكيات الزمنية في كل مسار/وسيلة بواسطة بيوحدة تكرارية ثنائية الطبقتين (BGRU)، ويتم دمج المسارات/الوسائل المتعددة عبر بيوحدة تكرارية ثنائية أخرى طبقتين (BGRU). تم الإبلاغ عن تحسن طفيف في معدل التصنيف مقارنة بنموذج صوتي فقط ومستند إلى معاملات MFCC في ظروف الصوت النقي وفي مستويات ضوضاء منخفضة. وفي وجود مستويات عالية من الضوضاء، يتفوق النموذج السمعي البصري من البداية إلى النهاية بشكل كبير على كلا النماذج الصوتية فقط.

التعرف على الكلام السمعي البصري من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI