HyperAIHyperAI
منذ 2 أشهر

متعدد الوسائط ترانسفورمر للتواليات اللغوية متعددة الوسائط غير المتماثلة

Yao-Hung Hubert Tsai; Shaojie Bai; Paul Pu Liang; J. Zico Kolter; Louis-Philippe Morency; Ruslan Salakhutdinov
متعدد الوسائط ترانسفورمر للتواليات اللغوية متعددة الوسائط غير المتماثلة
الملخص

اللغة البشرية غالباً ما تكون متعددة الأوضاع، مما يشمل مزيجاً من اللغة الطبيعية، والتعبيرات الوجهية، والسلوكيات الصوتية. ومع ذلك، هناك تحديان رئيسيان في نمذجة مثل هذه البيانات الزمنية المتعددة الأوضاع: 1) عدم التوافق الطبيعي للبيانات بسبب معدلات عينات متغيرة للسلاسل من كل وضع؛ و2) الارتباطات طويلة المدى بين العناصر عبر الأوضاع. في هذا البحث، نقدم نموذج التحويل المتعدد الأوضاع (Multimodal Transformer - MulT) لمعالجة القضايا المذكورة أعلاه بطريقة شاملة ومن النهاية إلى النهاية دون الحاجة إلى توافق البيانات بشكل صريح. في صميم نموذجنا يوجد انتباه الزوجي المتقابل ذو الاتجاه الواحد، الذي يركز على التفاعلات بين السلاسل المتعددة الأوضاع عبر خطوات زمنية مختلفة ويتكيف ضمنياً مع الدفق من وضع إلى آخر. تظهر التجارب الشاملة على بيانات زمنية متعددة الأوضاع سواء كانت متوافقة أو غير متوافقة أن نموذجنا يتفوق على الأساليب الرائدة بفارق كبير. بالإضافة إلى ذلك، تشير التحليلات التجريبية إلى أن الإشارات المتقابلة المرتبطة يمكن أن يتم التقاطها بواسطة آلية الانتباه المتقابل المقترحة في MulT.

متعدد الوسائط ترانسفورمر للتواليات اللغوية متعددة الوسائط غير المتماثلة | أحدث الأوراق البحثية | HyperAI