HyperAIHyperAI
منذ 2 أشهر

شبكات التجميع متعددة الوسائط العميقة

Abavisani, Mahdi ; Patel, Vishal M.
شبكات التجميع متعددة الوسائط العميقة
الملخص

نقدم نهجًا يستند إلى شبكات العصبونات التلافيفية (CNN) للتصنيف غير المشرف في الفضاء متعدد الوسائط. يتكون الإطار المقترح من ثلاث مراحل رئيسية - مُشفِّر متعدد الوسائط، طبقة ذات تعبير ذاتي، ومسَلِّم متعدد الوسائط. يأخذ المُشفِّر البيانات متعددة الوسائط كمدخل ويقوم بدمجها إلى تمثيل فضائي خفي. تكون مهمة الطبقة ذات التعبير الذاتي هي تطبيق الخاصية الذاتية التعبيرية والحصول على مصفوفة قرب مرتبطة بالنقاط البيانات. يقوم المسَلِّم بإعادة بناء البيانات المدخل الأصلية. يستخدم الشبكة المسافة بين إعادة البناء بواسطة المسَلِّم والمدخل الأصلي في تدريبها. ندرس تقنيات الدمج المبكر والتأخير والتوسط ونقترح ثلاثة مشفرات مختلفة متناظرة معها للدمج المكاني. تكون الطبقات ذات التعبير الذاتي والمسلمون متعددو الوسائط في الأساس متطابقة لطرق الدمج المكاني المختلفة. بالإضافة إلى الطرق المختلفة المستندة إلى الدمج المكاني، تم اقتراح شبكة مستندة إلى دمج القرب أيضًا، حيث يتم تطبيق الطبقة ذات التعبير الذاتي المرتبطة بأنماط مختلفة لتكون متطابقة. أظهرت التجارب الشاملة على ثلاثة مجموعات بيانات أن الطرق المقترحة تتفوق بشكل كبير على أفضل الطرق الحالية في تصنيف الفضاء متعدد الوسائط.

شبكات التجميع متعددة الوسائط العميقة | أحدث الأوراق البحثية | HyperAI