التوصيف الزمني للجملة بمساعدة ضعيفة مع تعلّم اقتراحات تباينية تعتمد على التوزيع الغاوسي

يهدف التأسيس الزمني للجملة إلى اكتشاف اللحظة الأكثر بروزًا المقابلة لاستعلام لغوي طبيعي من مقاطع فيديو غير مقطوعة. وبما أن وضع حدود زمنية يتطلب جهدًا كبيرًا ويعتمد على التقدير الشخصي، فقد لاقت الطرق المعتمدة على التدريب الضعيف اهتمامًا متزايدًا مؤخرًا. ومعظم الطرق المعتمدة على التدريب الضعيف الحالية تُولِّد الاقتراحات باستخدام نوافذ متحركة (sliding windows)، وهي مُستقلة عن المحتوى وذات جودة منخفضة. علاوةً على ذلك، تُدرّب هذه الطرق نماذجها على التمييز بين أزواج البصريات واللغة الإيجابية والسلبية المجمعة عشوائيًا من مقاطع فيديو أخرى، مما يتجاهل الأجزاء المتشابهة جدًا داخل نفس المقطع. في هذه الورقة، نقترح طريقة تُسمى التعلم المتناهي للاقتراحات (Contrastive Proposal Learning - CPL) للتغلب على هذه القيود. وبشكل محدد، نستخدم دوال جاوسية قابلة للتعلم بعدة أشكال لتوليد اقتراحات إيجابية وسلبية ضمن نفس المقطع، مما يمكن من تمثيل الأحداث المتعددة في مقاطع فيديو طويلة. ثم نقترح استراتيجية قابلة للتحكم لاستخراج الاقتراحات السلبية من الصعبة إلى السهلة داخل نفس الفيديو، والتي تُخفف من عملية تحسين النموذج وتمكن CPL من التمييز بين المشاهد المتشابهة جدًا. تُظهر التجارب أداءً متميزًا على مجموعتي بيانات Charades-STA وActivityNet Captions. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/minghangz/cpl.