منذ 6 أشهر

الملخص

يهدف التوصيف الكثيف للفيديوهات إلى إنتاج عدد من الوصفات المرتبطة بمواضعها الزمنية من الفيديو. اتبع الطرق السابقة نموذجًا معقدًا من نوع "تحديد المكان ثم الوصف"، والذي يعتمد بشكل كبير على مكونات مصممة يدويًا كثيرة. في هذه الورقة، نقترح إطارًا بسيطًا ولكن فعّالًا للوصف الكثيف للفيديوهات بشكل متكامل مع فك التشفير المتوازي (PDVC)، وذلك من خلال صياغة إنتاج الوصف الكثيف كمهمة توقع مجموعة. في الممارسة العملية، وباستخدام طبقة حسابية للحدث جديدة تُضاف فوق مُفكك المُتحوّل (Transformer Decoder)، يتم تقسيم الفيديو بدقة إلى عدد من القطع المتعلقة بالحدث، وذلك ضمن فهم شامل لمحتوى الفيديو، مما يعزز بشكل فعّال من الاتساق وسهولة قراءة الوصفات المُتنبأ بها. مقارنةً بالطرق السابقة، يتميز PDVC بعدة مزايا جذابة: (1) لا يعتمد على خوارزمية التثبيط الأقصى اليدوية (non-maximum suppression) أو على شبكة اختيار متتالية للحوادث المتكررة لإزالة التكرار، بل يُنتج مباشرة مجموعة من الأحداث بحجم مناسب؛ (2) على عكس النموذج ثنائي المراحل، نُدخل تمثيلات مُحسّنة لاستفسارات الحدث إلى وحدة تحديد الموقع ووحدة التوصيف بشكل متوازٍ، مما يجعل هاتين المهمتين الفرعيتين متداخلتين بشكل عميق ومتداخلتين متبادلًا من خلال عملية التحسين؛ (3) دون الحاجة إلى تعقيدات إضافية، تُظهر التجارب الواسعة على مجموعتي بيانات ActivityNet Captions وYouCook2 أن PDVC قادر على إنتاج نتائج وصف عالية الجودة، متفوّقًا على الطرق الثنائية المراحل الأفضل حالياً عندما تكون دقة تحديد الموقع مماثلة لها. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/ttengwang/PDVC.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التوثيق الكثيف للفيديو من الطرف إلى الطرف باستخدام التفكيك المتوازي

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters