HyperAIHyperAI
منذ 2 أشهر

التعرف على الكلمات الرئيسية البصرية باستخدام الانتباه

K R Prajwal; Liliane Momeni; Triantafyllos Afouras; Andrew Zisserman
التعرف على الكلمات الرئيسية البصرية باستخدام الانتباه
الملخص

في هذا البحث، نتناول مهمة تحديد الكلمات المفتاحية المنطوقة في مقاطع الفيديو الصامتة -- المعروفة أيضًا باسم تحديد الكلمات المفتاحية البصرية. لتحقيق هذا الهدف، ندرس نماذج قائمة على الشبكات العصبية من نوع ترانسفورمر (Transformer) التي تستقبل مسارين، أحدهما ترميز بصري للفيديو والآخر ترميز صوتي للكلمة المفتاحية، وتصدر الموقع الزمني للكلمة المفتاحية إذا كانت موجودة. إسهاماتنا هي كالتالي: (1) نقترح هندسة جديدة، وهي Transpotter، التي تستخدم انتباهًا بين الأوضاع الكامل (full cross-modal attention) بين المسار البصري والمسار الصوتي؛ (2) نظهر من خلال تقييمات شاملة أن نموذجنا يتفوق بشكل كبير على أفضل النماذج السابقة في تحديد الكلمات المفتاحية البصرية وقراءة الشفاه في مجموعات البيانات الصعبة LRW، LRS2، LRS3؛ (3) نثبت قدرة نموذجنا على تحديد الكلمات في ظروف شديدة التعقيد مثل الإشارة المنفصلة للمouthings في مقاطع الفيديو للغة الإشارة.请注意,"mouthings" 一词在阿拉伯语中没有直接对应的术语,因此我在翻译时保留了英文单词并进行了适当的解释。如果需要进一步的调整,请告知。

التعرف على الكلمات الرئيسية البصرية باستخدام الانتباه | أحدث الأوراق البحثية | HyperAI