HyperAIHyperAI

Command Palette

Search for a command to run...

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

يهدف التوصيف الكثيف للفيديوهات إلى إنتاج عدد من الوصفات المرتبطة بمواضعها الزمنية من الفيديو. اتبع الطرق السابقة نموذجًا معقدًا من نوع "تحديد المكان ثم الوصف"، والذي يعتمد بشكل كبير على مكونات مصممة يدويًا كثيرة. في هذه الورقة، نقترح إطارًا بسيطًا ولكن فعّالًا للوصف الكثيف للفيديوهات بشكل متكامل مع فك التشفير المتوازي (PDVC)، وذلك من خلال صياغة إنتاج الوصف الكثيف كمهمة توقع مجموعة. في الممارسة العملية، وباستخدام طبقة حسابية للحدث جديدة تُضاف فوق مُفكك المُتحوّل (Transformer Decoder)، يتم تقسيم الفيديو بدقة إلى عدد من القطع المتعلقة بالحدث، وذلك ضمن فهم شامل لمحتوى الفيديو، مما يعزز بشكل فعّال من الاتساق وسهولة قراءة الوصفات المُتنبأ بها. مقارنةً بالطرق السابقة، يتميز PDVC بعدة مزايا جذابة: (1) لا يعتمد على خوارزمية التثبيط الأقصى اليدوية (non-maximum suppression) أو على شبكة اختيار متتالية للحوادث المتكررة لإزالة التكرار، بل يُنتج مباشرة مجموعة من الأحداث بحجم مناسب؛ (2) على عكس النموذج ثنائي المراحل، نُدخل تمثيلات مُحسّنة لاستفسارات الحدث إلى وحدة تحديد الموقع ووحدة التوصيف بشكل متوازٍ، مما يجعل هاتين المهمتين الفرعيتين متداخلتين بشكل عميق ومتداخلتين متبادلًا من خلال عملية التحسين؛ (3) دون الحاجة إلى تعقيدات إضافية، تُظهر التجارب الواسعة على مجموعتي بيانات ActivityNet Captions وYouCook2 أن PDVC قادر على إنتاج نتائج وصف عالية الجودة، متفوّقًا على الطرق الثنائية المراحل الأفضل حالياً عندما تكون دقة تحديد الموقع مماثلة لها. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/ttengwang/PDVC.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp