DiffusionRet: استرجاع نص-فيديو توليدي باستخدام نموذج التفتيت

الحلول الحالية لاسترجاع الفيديو بناءً على النص تعتمد في جوهرها على نماذج تمييزية تركز على تحسين الاحتمال الشرطي، أي ( p(\text{مرشحات} \mid \text{استعلام}) ). وعلى الرغم من بساطتها، فإن هذا النموذج السائد يتجاهل التوزيع الأساسي للبيانات ( p(\text{استعلام}) )، مما يجعل من الصعب تحديد البيانات الخارجة عن التوزيع. لمعالجة هذه القيود، نتناول هذه المهمة بشكل مبتكر من منظور توليدي، ونُمَثِّل العلاقة بين النص والفيديو من خلال الاحتمال المشترك ( p(\text{مرشحات}, \text{استعلام}) ). يتم ذلك من خلال إطار عمل لاسترجاع الفيديو بناءً على النص يستند إلى تقنية التفريغ (DiffusionRet)، حيث يتم تمثيل مهمة الاسترجاع كعملية توليد تدريجي للتوزيع المشترك من الضوضاء. أثناء التدريب، يتم تحسين DiffusionRet من منظورين: التوليد والتمييز، حيث يتم تحسين المولد باستخدام خسارة التوليد، بينما يتم تدريب مُستخرج الميزات باستخدام خسارة التمييز المتناقضة. وبهذه الطريقة، يستفيد DiffusionRet بذكاء من المزايا المتميزة لكل من الأساليب التوليدية والتمييزية. وقد أثبتت التجارب الواسعة على خمسة معايير شائعة لاسترجاع الفيديو بناءً على النص، تشمل MSRVTT وLSMDC وMSVD وActivityNet Captions وDiDeMo، أداءً متفوقًا، مما يؤكد فعالية طريقة العمل هذه. وبشكل أكثر تشجيعًا، فإن DiffusionRet يُظهر أداءً جيدًا حتى في بيئات استرجاع خارج النطاق (out-of-domain) دون أي تعديل. نعتقد أن هذه الدراسة تقدم رؤى جوهرية في المجالات ذات الصلة. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/jpthu17/DiffusionRet.