HyperAIHyperAI
منذ 9 أيام

التعرف المستمر على لغة الإشارة من خلال التوافق عبر الوسائط لتمثيلات الفيديو والنصوص في فضاء مختلط مُشترك

{Petros Daras, DIMITRIOS KONSTANTINIDIS, Kosmas Dimitropoulos, Ilias Papastratis}
الملخص

تمثّل الاعتراف المستمر بلغة الإشارة (CSLR) المشكلة الصعبة المتعلقة باستشعار كلمات لغة الإشارة وحدودها الزمنية من تسلسلات فيديو مُعلّمة بشكل ضعيف. ركّزت الطرق السابقة بشكل أساسي على استخلاص الميزات البصرية، مع تجاهل المعلومات النصية، وفشلها في نمذجة الاعتماديات الداخلية داخل الكلمة (intra-gloss dependencies) بشكل فعّال. في هذا العمل، تم اقتراح منهجية تعلم عبر الوسائط (cross-modal learning) تستخدم المعلومات النصية لتحسين أداء الاعتراف المستمر بلغة الإشارة القائمة على البصريات. ولتحقيق ذلك، تم استخدام شبكتين قويتين لترميز (encoding networks) في البداية لإنتاج تمثيلات (embeddings) للفيديو والنص، قبل تحويلها ومحاذاةً إلى تمثيل مشترك في الفضاء الخفي. ويهدف التماثل عبر الوسائط المقترح إلى نمذجة الاعتماديات الداخلية داخل الكلمة، وإنشاء تمثيلات خفية مبنية على الفيديو أكثر وصفًا لتحسين مهام CSLR. يتم تدريب المنهجية المقترحة بشكل مشترك باستخدام التمثيلات الخفية للفيديو والنص. وأخيرًا، يتم تصنيف التمثيلات الخفية المُحاذاة للفيديو باستخدام مشفر (decoder) تم تدريبه بشكل مشترك. وقد أظهرت التجارب الواسعة على ثلاث مجموعات بيانات معروفة لاعتراف بلغة الإشارة، مقارنة مع الطرق الرائدة حاليًا، الإمكانات الكبيرة التي يمتلكها النهج المقترح.