استرجاع نص-فيديو مُعزّز بالانتباه ثنائي النمط مع تعلّم تناضري بحدود جزئية ثلاثية

في السنوات الأخيرة، أدى التوسع الهائل في مقاطع الفيديو على الويب إلى جعل استرجاع النصوص والفيديوهات أمرًا متزايد الأهمية والشعبية في مجالات مثل تصفية الفيديوهات والتوصية والبحث. يهدف استرجاع النصوص والفيديوهات إلى تصنيف النصوص/الفيديوهات ذات الصلة بشكل أعلى من تلك غير ذات الصلة. وتكمن النواة الأساسية لهذه المهمة في قياس دقيق لتشابه النمط المتقاطع بين النصوص والفيديوهات. في الآونة الأخيرة، أظهرت طرق التعلم المضاد (Contrastive Learning) نتائج واعدة في مجال استرجاع النصوص والفيديوهات، حيث ركزت معظمها على بناء أزواج إيجابية وسلبية لتعلم تمثيلات النصوص والفيديوهات. ومع ذلك، فإن هذه الأساليب لا تولي اهتمامًا كافيًا للأزواج السلبية الصعبة (Hard Negatives)، كما تفتقر إلى القدرة على نمذجة مستويات مختلفة من التشابه الدلالي. ولحل هذين المشكلين، تقدم هذه الورقة تحسينات على التعلم المضاد باستخدام تقنيتين جديدتين. أولاً، للاستفادة من الأمثلة الصعبة لتعزيز القوة التمييزية، نقترح وحدة جديدة تُسمى "وحدة التنشيط المزدوجة ذات الانتباه المُعزّز" (Dual-Modal Attention-Enhanced Module - DMAE)، والتي تقوم بتعدين الأزواج السلبية الصعبة من خلال الاستفادة من المؤشرات النصية والبصرية. وبالإضافة إلى ذلك، نُدخل خسارة جديدة تُسمى "خسارة InfoNCE المستشعرة بالسلبيات" (Negative-aware InfoNCE - NegNCE)، والتي تتيح لنا تحديد هذه الأزواج السلبية الصعبة بشكل تكيفي، وتسليط الضوء بشكل صريح على تأثيرها في دالة الخسارة التدريبية. ثانيًا، تُجادل هذه الدراسة بأن العينات الثلاثية (Triplet Samples) قادرة على نمذجة التشابه الدلالي الدقيق بشكل أفضل من العينات الزوجية (Pairwise Samples). ولذلك، نُقدّم وحدة جديدة تُسمى "التعلم المضاد الثلاثي بحد جزئي" (Triplet Partial Margin Contrastive Learning - TPM-CL)، والتي تقوم ببناء عينات ثلاثية مرتبة جزئيًا من خلال توليد تلقائي لأزواج نصية-فيديو صعبة على المستوى الدقيق للعناصر المطابقة. وتُصمم وحدة TPM-CL استراتيجية تبديل رموز تكيفية تشمل تفاعلًا بين النمطين (Cross-modal Interaction) لتمثيل الفروق الدلالية الدقيقة. وقد أظهرت التجارب الواسعة أن النهج المقترح يتفوق على الأساليب الحالية على أربع مجموعات بيانات شهيرة لاسترجاع النصوص والفيديوهات، تشمل MSR-VTT و MSVD و DiDeMo و ActivityNet.