شبكات التجميع متعددة الأوضاع للتعلم ذاتيًا من الفيديوهات غير المصنفة

التعلم الذاتي متعدد الوسائط يحظى باهتمام متزايد لأنه ليس فقط يسمح بتدريب شبكات كبيرة دون إشراف بشري، بل أيضًا بالبحث واسترجاع البيانات عبر وسائط مختلفة. في هذا السياق، تقدم هذه الورقة إطارًا للتدريب الذاتي يتعلم مساحة تمثيلية متعددة الوسائط مشتركة، والتي بالإضافة إلى مشاركة التمثيلات عبر وسائط مختلفة، تفرض تجميع الحالات المتشابهة معانيًا. لهذا الغرض، نوسع مفهوم التعلم التضادي على مستوى الحالة بمراحل تجميع متعددة الوسائط في خط أنابيب التدريب للكشف عن التشابهات الدلالية عبر الوسائط. تمكن المساحة المدمجة الناتجة من استرجاع العينات عبر جميع الوسائط، حتى من قواعد بيانات غير مرئية ومجالات مختلفة. لتقييم نهجنا، قمنا بتدريب نموذجنا على مجموعة بيانات HowTo100M وتقييم قدراته على الاسترجاع بدون تدريب مسبق (zero-shot) في مجالين صعبين، وهما استرجاع النص إلى الفيديو وتحديد الأفعال الزمنية، مما أظهر نتائج رائدة على أربع مجموعات بيانات مختلفة.