HyperAIHyperAI
منذ 11 أيام

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي

Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, Ping Luo
التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي
الملخص

يهدف التوصيف الكثيف للفيديوهات إلى إنتاج عدد من الوصفات المرتبطة بمواضعها الزمنية من الفيديو. اتبع الطرق السابقة نموذجًا معقدًا من نوع "تحديد المكان ثم الوصف"، والذي يعتمد بشكل كبير على مكونات مصممة يدويًا كثيرة. في هذه الورقة، نقترح إطارًا بسيطًا ولكن فعّالًا للوصف الكثيف للفيديوهات بشكل متكامل مع فك التشفير المتوازي (PDVC)، وذلك من خلال صياغة إنتاج الوصف الكثيف كمهمة توقع مجموعة. في الممارسة العملية، وباستخدام طبقة حسابية للحدث جديدة تُضاف فوق مُفكك المُتحوّل (Transformer Decoder)، يتم تقسيم الفيديو بدقة إلى عدد من القطع المتعلقة بالحدث، وذلك ضمن فهم شامل لمحتوى الفيديو، مما يعزز بشكل فعّال من الاتساق وسهولة قراءة الوصفات المُتنبأ بها. مقارنةً بالطرق السابقة، يتميز PDVC بعدة مزايا جذابة: (1) لا يعتمد على خوارزمية التثبيط الأقصى اليدوية (non-maximum suppression) أو على شبكة اختيار متتالية للحوادث المتكررة لإزالة التكرار، بل يُنتج مباشرة مجموعة من الأحداث بحجم مناسب؛ (2) على عكس النموذج ثنائي المراحل، نُدخل تمثيلات مُحسّنة لاستفسارات الحدث إلى وحدة تحديد الموقع ووحدة التوصيف بشكل متوازٍ، مما يجعل هاتين المهمتين الفرعيتين متداخلتين بشكل عميق ومتداخلتين متبادلًا من خلال عملية التحسين؛ (3) دون الحاجة إلى تعقيدات إضافية، تُظهر التجارب الواسعة على مجموعتي بيانات ActivityNet Captions وYouCook2 أن PDVC قادر على إنتاج نتائج وصف عالية الجودة، متفوّقًا على الطرق الثنائية المراحل الأفضل حالياً عندما تكون دقة تحديد الموقع مماثلة لها. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/ttengwang/PDVC.

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي | أحدث الأوراق البحثية | HyperAI