D3G: استكشاف الأولية الغاوسية لترقيم الجمل الزمنية باستخدام التسمية السريعة

يهدف تأطير الجملة الزمنية (TSG) إلى تحديد لحظة محددة من فيديو غير مقصوص مع استعلام بلغة طبيعية معينة. حديثًا، لا تزال الطرق المراقبة بشكل ضعيف تعاني من فجوة أداء كبيرة مقارنة بالطرق المراقبة بشكل كامل، بينما تتطلب الأخيرة إجراءات شاقة لتحديد الأوقات. في هذه الدراسة، نسعى إلى تقليل تكلفة التحديد والحفاظ على أداء تنافسي للمهمة TSG مقارنة بالطرق المراقبة بشكل كامل. لتحقيق هذا الهدف، نقوم بفحص مهمة تأطير الجملة الزمنية المراقبة بالنظر التي تم اقتراحها مؤخرًا، والتي تتطلب فقط تحديد إطار واحد (يُشار إليه باسم تحديد النظر) لكل استعلام. تحت هذا الإعداد، نقترح إطار عمل يعتمد على التوزيع الجاوس الديناميكي مع تحديد النظر (D3G)، والذي يتكون من وحدة التعلم التبايني لمجموعة التناسق الدلالي (SA-GCL) ووحدة ضبط التوزيع الجاوس الديناميكي (DGA). بصفة خاصة، تقوم SA-GCL باختيار اللحظات الإيجابية الموثوقة من خريطة زمنية ثنائية الأبعاد عن طريق الاستفادة المشتركة من التوزيع الجاوس والتناسق الدلالي، مما يساهم في مواءمة أزواج الجمل-اللحظات الإيجابية في الفضاء المشترك للتمثيل. علاوة على ذلك، لتخفيف الانحياز الناتج عن تحديد النظر ومعالجة الاستعلامات المعقدة التي تتكون من أحداث متعددة، نقترح وحدة DGA، والتي تقوم بضبط التوزيع ديناميكياً لتقريب الحقيقة الأرضية للحظات المستهدفة. تؤكد التجارب الواسعة على ثلاثة مقاييس صعبة فعالية الإطار المقترح D3G. فهو يتفوق بكثير على أفضل الطرق المراقبة بشكل ضعيف ويضيق الفجوة في الأداء مقارنة بالطرق المراقبة بشكل كامل. يمكن الحصول على الكود من الرابط: https://github.com/solicucu/D3G.