HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلمات الرئيسية البصرية باستخدام الانتباه

K R Prajwal* [email protected] Liliane Momeni* [email protected] Triantafyllos Afouras [email protected] Andrew Zisserman [email protected]

الملخص

في هذا البحث، نتناول مهمة تحديد الكلمات المفتاحية المنطوقة في مقاطع الفيديو الصامتة -- المعروفة أيضًا باسم تحديد الكلمات المفتاحية البصرية. لتحقيق هذا الهدف، ندرس نماذج قائمة على الشبكات العصبية من نوع ترانسفورمر (Transformer) التي تستقبل مسارين، أحدهما ترميز بصري للفيديو والآخر ترميز صوتي للكلمة المفتاحية، وتصدر الموقع الزمني للكلمة المفتاحية إذا كانت موجودة. إسهاماتنا هي كالتالي: (1) نقترح هندسة جديدة، وهي Transpotter، التي تستخدم انتباهًا بين الأوضاع الكامل (full cross-modal attention) بين المسار البصري والمسار الصوتي؛ (2) نظهر من خلال تقييمات شاملة أن نموذجنا يتفوق بشكل كبير على أفضل النماذج السابقة في تحديد الكلمات المفتاحية البصرية وقراءة الشفاه في مجموعات البيانات الصعبة LRW، LRS2، LRS3؛ (3) نثبت قدرة نموذجنا على تحديد الكلمات في ظروف شديدة التعقيد مثل الإشارة المنفصلة للمouthings في مقاطع الفيديو للغة الإشارة.请注意,"mouthings" 一词在阿拉伯语中没有直接对应的术语,因此我在翻译时保留了英文单词并进行了适当的解释。如果需要进一步的调整,请告知。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على الكلمات الرئيسية البصرية باستخدام الانتباه | مستندات | HyperAI