التعلم التمثيلي من خلال الانتباه متعدد الوسائط والتعليقات المزامنة زمنيًا لتحليل المحتوى الفيديو العاطفي
رغم أن الأنماط الزمنية المتأصلة في الإشارات البصرية والصوتية تُعدّ حاسمة لتحليل المحتوى الفعّالي الفيديوي، إلا أنها لم تُدرس بشكل شامل حتى الآن. في هذه الورقة، نقترح طريقة جديدة تُسمى "النظام متعدد الوسائط المُدرك للزمن" (TAM) لاستخلاص المعلومات الزمنية بشكل كامل. وبشكل خاص، نصمم وحدة دمج متعددة الوسائط تعتمد على التماسك الزمني المتبادل، وتُطبّق دمجًا مبنيًا على الانتباه بين الوسائط المختلفة داخل الفواصل الزمنية وعبرها. وبذلك، تُستخلص العلاقات الزمنية بين الوسائط المختلفة بشكل كامل. علاوة على ذلك، فإن العلامة العاطفية الواحدة لا تكفي كمُراقبة لتعلم تمثيل كل فاصل زمني، مما يجعل استخراج الأنماط الزمنية أمرًا صعبًا. ولذلك، نستفيد من التعليقات المزامنة زمنيًا (TSCs) كمُراقبة مساعدة، نظرًا لسهولة توفرها واحتوائها على مؤشرات عاطفية غنية. ونُصمم مهمتين ذاتيتين للتدريب (self-supervised tasks) تعتمدان على TSCs: الأولى تهدف إلى التنبؤ بكلمات العاطفة في تعليق TSC من خلال تمثيل الفيديو وسياق التعليق، والثانية تهدف إلى التنبؤ بالفاصل الزمني الذي يظهر فيه التعليق من خلال حساب الارتباط بين تمثيل الفيديو وتمثيل التعليق (embedding). وتُستخدم هذه المهام ذاتية التدريب لتدريب المُسبق (pre-train) وحدة الدمج متعددة الوسائط المُعتمدة على التماسك الزمني على مجموعة بيانات وسائط فيديو وTSC كبيرة الحجم، تم جمعها من الإنترنت دون تكلفة تسمية. وتحفّز هذه المهام ذاتية التدريب الوحدة على تعلم التمثيلات للفرز الزمنية التي تحتوي على TSC، وبالتالي تمكّنها من استخلاص أنماط عاطفية زمنية أكثر دقة. وأظهرت النتائج التجريبية على ثلاث مجموعات بيانات معيارية أن الوحدة المُقترحة تحقق أفضل النتائج في مجال تحليل المحتوى الفعّالي الفيديوي. كما تأكدت دراسات التحليل التفصيلي (ablation studies) أن الوحدة تتعلم أنماطًا عاطفية أكثر للفرز الزمنية بعد التدريب المسبق القائم على TSC، وتحقيق أداءً أفضل.