شبكة ت(Convolutional) زمنية متعددة الدقة من الخشنة إلى الدقيقة

تُعدّ الشبكات التلقائية الزمنية (TCNs) معمارية شائعة الاستخدام في تقسيم الفيديو الزمني. ومع ذلك، تُعاني هذه الشبكات غالبًا من أخطاء التجزئة الزائدة وتحتاج إلى وحدات تحسين إضافية لضمان السلسة والاتساق الزمني. في هذه الدراسة، نقترح مُشِرَّعًا زمنيًا مُكوّنًا من مُشِرَّع وفكِّ مُشِرَّع (encoder-decoder) جديدًا لمعالجة مشكلة تجزئة التسلسل. وتحديدًا، يتبع المُفكِّك هيكلًا من الخشنة إلى الدقيقة، مع تجميع ضمني لعدة دوال زمنية مختلفة. ويؤدي هذا التجميع إلى تقسيم أكثر سلاسة، وأكثر دقة، وأفضل توازنًا، دون الحاجة إلى وحدات تحسين إضافية. علاوةً على ذلك، نُحسّن تدريبنا من خلال استراتيجية تحسين الميزات على عدة دوال زمنية، لتعزيز المرونة تجاه التغيرات في الدوال الزمنية المختلفة. وأخيرًا، لدعم معماريتنا وتشجيع المزيد من الاتساق الزمني، نقترح خسارةً للإجراءات (action loss) تُعاقب التصنيفات الخاطئة على مستوى الفيديو. تُظهر التجارب أن معماريّتنا المستقلة، مع الاستراتيجية الجديدة لتحسين الميزات والخسارة الجديدة، تتفوّق على أحدث النماذج في ثلاث معايير لتقسيم الفيديو الزمني.