HyperAIHyperAI
منذ 2 أشهر

تخصيص الأنشطة الزمنية بقليل من الأمثلة باستخدام محول مكيف للطلب

Nag, Sauradip ; Zhu, Xiatian ; Xiang, Tao
تخصيص الأنشطة الزمنية بقليل من الأمثلة باستخدام محول مكيف للطلب
الملخص

العمل الحالي في مجال تحديد المواقع الزمنية للأفعال (TAL) يعتمد على عدد كبير من مقاطع الفيديو التدريبية مع تسميات شاملة على مستوى القطعة، مما يمنعه من التوسع إلى فئات جديدة. كحل لهذه المشكلة، يتم تصميم تعلم الأفعال القليل-الصورة (FS-TAL) لتكيف النموذج مع فئة جديدة تمثلها مقاطع فيديو قليلة العدد، قد تكون حتى واحدة فقط. ومع ذلك، فإن الطرق الحالية في FS-TAL تعتمد على مقاطع الفيديو المقطوعة للتدريب على الفئات الجديدة. ولكن هذا الإعداد ليس واقعيًا فحسب، حيث يتم التقاط الأفعال عادةً في مقاطع الفيديو غير المقطوعة، بل يتجاهل أيضًا مقاطع الفيديو الخلفية التي تحتوي على مؤشرات سياقية حاسمة لتقسيم الأفعال المتقدمة.في هذا العمل، نقترح أولاً إعدادًا جديدًا لـ FS-TAL من خلال استخدام مقاطع الفيديو التدريبية غير المقطوعة. ثانياً، نقترح نموذجًا جديدًا لـ FS-TAL يعمل على زيادة نقل المعرفة من الفئات التدريبية بينما يمكنه التكيف الديناميكي مع الفئة الجديدة وكل مقطع فيديو منها بشكل متزامن. يتم تحقيق هذا من خلال إدخال محول (Transformer) متكيف مع الاستعلامات في النموذج. أظهرت التجارب الواسعة على منصتين لتحديد مواقع الأفعال أن طريقتنا يمكنها تفوق جميع البدائل الرائدة بوضوح في السيناريوهات ذات المجال الواحد والمتعددة المجالات. يمكن العثور على الكود المصدر في https://github.com/sauradip/fewshotQAT

تخصيص الأنشطة الزمنية بقليل من الأمثلة باستخدام محول مكيف للطلب | أحدث الأوراق البحثية | HyperAI