التعلم ذاتيًا عن طريق التجميع عبر الأوضاع السمعية والبصرية

الوسائط البصرية والصوتية مرتبطة ارتباطًا وثيقًا، ومع ذلك تحتوي على معلومات مختلفة. يسمح هذا الارتباط القوي بتنبؤ دقيق للدلالات (semantics) في إحدى الوسائط من خلال الأخرى. تجعل الاختلافات الجوهرية بين الوسائط التنبؤ العابر للوسائط مهمة مُعدة سلفًا محتملة أكثر ثراءً لتعلم التمثيلات (representations) الفيديوية والصوتية بطريقة ذاتية غير مشرفة مقارنة بالتعلم داخل الوسيط نفسه. استنادًا إلى هذه الحدسية، نقترح تجميع عمق عابر للوسائط (Cross-Modal Deep Clustering - XDC)، وهو طريقة ذاتية غير مشرفة جديدة تستفيد من التجميع غير المشرف في وسيط واحد (مثل الصوت) كإشارة إشراف للوسيط الآخر (مثل الفيديو). يساعد هذا الإشراف العابر للوسائط XDC على الاستفادة من الارتباط الدلالي والاختلافات بين الوسائط الثنائية. تظهر تجاربنا أن XDC يتفوق على التجميع الأحادي الوسيط وأصناف متعددة الوسائط أخرى. يحقق XDC دقة رائدة بين الطرق الذاتية غير المشرفة في عدة مقاييس فيديوية وصوتية. وأهم من ذلك، أن نموذج الفيديو لدينا الذي تم تدريبه بشكل أولي على بيانات كبيرة غير مشروفة يتفوق بشكل كبير على نفس النموذج الذي تم تدريبه بشكل أولي بإشراف كامل على ImageNet وKinetics في تحديد الأفعال (action recognition) على HMDB51 وUCF101. حسب علم us، يعد XDC أول طريقة تعلم ذاتي غير مشرف تتفوق على التدريب الأولي بالإشراف الكامل الكبير الحجم لتحديد الأفعال بنفس البنية المعمارية.