تقدير الضوضاء باستخدام تقدير الكثافة للتعلم متعدد الوسائط الذاتي التدريب

إحدى العوامل الرئيسية التي تمكن نماذج التعلم الآلي من فهم وحل المهام الواقعية هي الاستفادة من البيانات متعددة الوسائط. للأسف، فإن تسمية البيانات متعددة الوسائط تُعدّ تحديًا وتكاليفها مرتفعة. في الآونة الأخيرة، تم اقتراح أساليب متعددة الوسائط ذاتية التدريب التي تجمع بين الرؤية واللغة لتعلم تمثيلات متعددة الوسائط دون الحاجة إلى تسمية. ومع ذلك، غالبًا ما تتجاهل هذه الأساليب وجود مستويات عالية من الضوضاء، مما يؤدي إلى نتائج غير مثلى. في هذا العمل، نُظهر أن مشكلة تقدير الضوضاء في البيانات متعددة الوسائط يمكن تبسيطها إلى مهمة تقدير الكثافة متعددة الوسائط. باستخدام تقدير الكثافة متعدد الوسائط، نقترح كتلة بناء لتقدير الضوضاء في تعلم التمثيلات متعددة الوسائط، تعتمد تمامًا على الارتباط الداخلي بين الوسائط المختلفة. نُظهر كيف يمكن دمج تقدير الضوضاء لدينا بشكل واسع، ونحقق نتائج مماثلة لأفضل الأداء الحالي على خمسة مجموعات بيانات معيارية مختلفة لمهام متعددة الوسائط الصعبة: إجابة الأسئلة على الفيديو والاسترجاع من النص إلى الفيديو. علاوة على ذلك، نقدم حدًا نظريًا احتماليًا للخطأ يدعم نتائجنا التجريبية، ونُحلل حالات الفشل. الكود: https://github.com/elad-amrani/ssml.