HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التعلم متعدد الوسائط باستخدام مدرسين أحادي الوسائط

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

الملخص

يُعد تعلّم التمثيلات متعددة الوسائط خطوة أساسية نحو التطبيقات الروبوتية الواقعية، وقد تم تطوير العديد من نماذج دمج الوسائط المختلفة لتحقيق هذا الهدف. ومع ذلك، لاحظنا أن النماذج الحالية، التي تعتمد في أهدافها بشكل رئيسي على التدريب المشترك، تعاني غالبًا من تمثيلات ضعيفة لكل وسيلة من الوسائط. نُسمي هذه المشكلة "فشل الوسيلة"، ونفترض أن عدم التوازن بين الوسائط، بالإضافة إلى التحيز الضمني في الأهداف المشتركة المستخدمة في طرق الدمج، يمنع المُشَكِّلات (encoders) الخاصة بكل وسيلة من التعلم الكافي للسمات. ولحل هذه المشكلة، نقترح منهجًا جديدًا لتعلّم الوسائط المتعددة يُسمى Uni-Modal Teacher، والذي يجمع بين هدف الدمج وتمثيل الوسيلة الواحدة (uni-modal distillation) للتعامل مع مشكلة فشل الوسيلة. ونُظهر أن منهجنا لا يُحسّن بشكل كبير تمثيل كل وسيلة، بل يُحسّن أيضًا الأداء العام في المهام متعددة الوسائط. كما أن منهجنا يمكن تعميمه بكفاءة على معظم مناهج دمج الوسائط. وقد حققنا تحسنًا يزيد عن 3% في مهمة تصنيف الصوت والصورة VGGSound، بالإضافة إلى تحسين الأداء في مهمة تقسيم صور RGB-D على مجموعة بيانات NYU Depth V2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp