ميرا솔 3ب: نموذج متعدد الوسائط ذاتي التوليد للوسائط المُتماشية زمنيًا والسياقية

أحد التحديات الرئيسية في التعلم متعدد الوسائط هو الحاجة إلى دمج وسائط متنوعة من حيث الطبيعة (مثل الفيديو، الصوت، النص). على سبيل المثال، يتم جمع بيانات الفيديو والصوت بمعدلات أعلى بكثير من النص، وغالبًا ما تكون متماشية زمنيًا، لكنها غالبًا ما تكون غير متماشية مع النص، الذي يُقدَّم كسياق عام، مثل العنوان أو الوصف. علاوة على ذلك، تكون حجم مدخلات الفيديو والصوت أكبر بكثير، ويزداد مع طول الفيديو، ما يستدعي بالضرورة موارد حوسبة أكبر مخصصة لهذه الوسائط، ويُعقد عملية نمذجة الاعتماديات على المدى الطويل.في هذا العمل، نقوم بفصل نمذجة الوسائط المتعددة، من خلال تقسيمها إلى نماذج ذاتية التوليد منفصلة وموجهة، تُعالج المدخلات وفقًا للخصائص المميزة لكل وسيلة. نقترح نموذجًا متعدد الوسائط يُسمى Mirasol3B، يتكون من جزء ذاتي التوليد مخصص للوسائط المتماشية زمنيًا (مثل الصوت والفيديو)، وجزء آخر ذاتي التوليد مخصص للوسائط السياقية التي قد لا تكون متماشية زمنيًا، لكنها لا تزال تسلسلية. ولمعالجة التسلسلات الطويلة الناتجة عن مدخلات الفيديو والصوت، نقترح تقسيم تسلسلات الفيديو والصوت إلى قطع متتالية (snippets) ثم معالجة تمثيلاتها بشكل ذاتي توليد. ولتحقيق ذلك، نقترح آلية تسمى "Combiner"، والتي تُنمذج معلومات الصوت والفيديو معًا ضمن إطار زمني محدد. تقوم آلية Combiner بتعلم استخراج ميزات الصوت والفيديو من الإشارات الزمنية-المكانية الخام، ثم تتعلم دمج هذه الميزات لإنتاج تمثيلات مكثفة ولكنها غنية بالمعاني لكل قطعة.يحقق نهجنا أداءً متفوقًا على المعايير المعتمدة في مجال التعلم متعدد الوسائط، متفوقًا على نماذج أكبر بكثير. كما يعالج بفعالية الطلب العالي على الحوسبة الناتج عن مدخلات الوسائط من خلال تعلم تمثيلات مكثفة، وضبط طول التسلسلات في تمثيلات ميزات الصوت والفيديو، ونمذجة اعتماداتها الزمنية.