HyperAIHyperAI
منذ 2 أشهر

قراءة الشفاه على مستوى الأجزاء الفرعية للكلمات باستخدام الانتباه البصري

Prajwal, K R ; Afouras, Triantafyllos ; Zisserman, Andrew
قراءة الشفاه على مستوى الأجزاء الفرعية للكلمات باستخدام الانتباه البصري
الملخص

هدف هذه الورقة هو تعلم نماذج قوية لقراءة الشفاه يمكنها التعرف على الكلام في مقاطع الفيديو الصامتة. ومعظم الأعمال السابقة تتعامل مع مشكلة التعرف على الكلام البصري المفتوح من خلال تكييف تقنيات التعرف على الكلام التلقائي القائمة فوق ميزات بصرية مجمعة بشكل بسيط. بدلاً من ذلك، في هذه الورقة نركز على التحديات الفريدة التي تواجه قراءة الشفاه ونقترح حلولًا مخصصة. لتحقيق هذا الهدف، نقدم المساهمات التالية:1. نقترح آلية تجميع قائمة على الانتباه لتجميع تمثيلات الكلام البصري؛2. نستخدم الوحدات الفرعية للكلمات في قراءة الشفاه لأول مرة ونظهر أن هذا يسمح لنا بتقديم نموذج أفضل للغموض الموجود في المهمة؛3. نقترح نموذجًا للكشف عن الكلام البصري (VSD)، مدربًا فوق شبكة قراءة الشفاه.بعد اتباع ما سبق، حصلنا على أفضل النتائج الحالية في المقاييس الصعبة LRS2 وLRS3 عند التدريب باستخدام مجموعات بيانات عامة، وحتى تجاوزنا النماذج المدربة باستخدام مجموعات بيانات صناعية كبيرة باستخدام كمية بيانات أقل بمقدار عُشر. حقق أفضل نموذج لدينا معدل خطأ الكلمات بنسبة 22.6% في مجموعة بيانات LRS2، وهو أداء غير مسبوق لنماذج قراءة الشفاه، مما يقلل بشكل كبير من الفجوة بين أداء قراءة الشفاه والتعرف على الكلام التلقائي. بالإضافة إلى ذلك، في مقاييس AVA-ActiveSpeaker، يتفوق نموذج الكشف عن الكلام البصري (VSD) الخاص بنا على جميع النقاط الأساسية البصرية فقط وحتى يتفوق على عدة طرق صوتية-بصرية حديثة.