HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التجميع متعددة الوسائط العميقة

Mahdi Abavisani Vishal M. Patel

الملخص

نقدم نهجًا يستند إلى شبكات العصبونات التلافيفية (CNN) للتصنيف غير المشرف في الفضاء متعدد الوسائط. يتكون الإطار المقترح من ثلاث مراحل رئيسية - مُشفِّر متعدد الوسائط، طبقة ذات تعبير ذاتي، ومسَلِّم متعدد الوسائط. يأخذ المُشفِّر البيانات متعددة الوسائط كمدخل ويقوم بدمجها إلى تمثيل فضائي خفي. تكون مهمة الطبقة ذات التعبير الذاتي هي تطبيق الخاصية الذاتية التعبيرية والحصول على مصفوفة قرب مرتبطة بالنقاط البيانات. يقوم المسَلِّم بإعادة بناء البيانات المدخل الأصلية. يستخدم الشبكة المسافة بين إعادة البناء بواسطة المسَلِّم والمدخل الأصلي في تدريبها. ندرس تقنيات الدمج المبكر والتأخير والتوسط ونقترح ثلاثة مشفرات مختلفة متناظرة معها للدمج المكاني. تكون الطبقات ذات التعبير الذاتي والمسلمون متعددو الوسائط في الأساس متطابقة لطرق الدمج المكاني المختلفة. بالإضافة إلى الطرق المختلفة المستندة إلى الدمج المكاني، تم اقتراح شبكة مستندة إلى دمج القرب أيضًا، حيث يتم تطبيق الطبقة ذات التعبير الذاتي المرتبطة بأنماط مختلفة لتكون متطابقة. أظهرت التجارب الشاملة على ثلاثة مجموعات بيانات أن الطرق المقترحة تتفوق بشكل كبير على أفضل الطرق الحالية في تصنيف الفضاء متعدد الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp