HyperAIHyperAI

Command Palette

Search for a command to run...

متعدد الوسائط ترانسفورمر للتواليات اللغوية متعددة الوسائط غير المتماثلة

Yao-Hung Hubert Tsai *equal contribution Shaojie Bai *equal contribution J. Zico Kolter Louis-Philippe Morency Paul Pu Liang Ruslan Salakhutdinov

الملخص

اللغة البشرية غالباً ما تكون متعددة الأوضاع، مما يشمل مزيجاً من اللغة الطبيعية، والتعبيرات الوجهية، والسلوكيات الصوتية. ومع ذلك، هناك تحديان رئيسيان في نمذجة مثل هذه البيانات الزمنية المتعددة الأوضاع: 1) عدم التوافق الطبيعي للبيانات بسبب معدلات عينات متغيرة للسلاسل من كل وضع؛ و2) الارتباطات طويلة المدى بين العناصر عبر الأوضاع. في هذا البحث، نقدم نموذج التحويل المتعدد الأوضاع (Multimodal Transformer - MulT) لمعالجة القضايا المذكورة أعلاه بطريقة شاملة ومن النهاية إلى النهاية دون الحاجة إلى توافق البيانات بشكل صريح. في صميم نموذجنا يوجد انتباه الزوجي المتقابل ذو الاتجاه الواحد، الذي يركز على التفاعلات بين السلاسل المتعددة الأوضاع عبر خطوات زمنية مختلفة ويتكيف ضمنياً مع الدفق من وضع إلى آخر. تظهر التجارب الشاملة على بيانات زمنية متعددة الأوضاع سواء كانت متوافقة أو غير متوافقة أن نموذجنا يتفوق على الأساليب الرائدة بفارق كبير. بالإضافة إلى ذلك، تشير التحليلات التجريبية إلى أن الإشارات المتقابلة المرتبطة يمكن أن يتم التقاطها بواسطة آلية الانتباه المتقابل المقترحة في MulT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp