HyperAIHyperAI

Command Palette

Search for a command to run...

LD-DETR: محول فك التشفير الدائري للكشف عن اللحظات في الفيديو وتحديد النقاط المهمة

Pengcheng Zhao Zhixian He Fuwei Zhang Shujin Lin∗ Fan Zhou

الملخص

استرجاع اللحظات الفيديوية وكشف النقاط البارزة يهدفان إلى العثور على المحتوى المقابل في الفيديو بناءً على استعلام نصي. تستخدم النماذج الحالية عادةً طرق التعلم التضادية أولاً لتوحيد خصائص الفيديو والنص، ثم تقوم بدمج واستخراج المعلومات متعددة الوسائط، وأخيراً تستخدم مفكك الشفرة من نوع Transformer لفك شفرة المعلومات متعددة الوسائط. ومع ذلك، تواجه الأساليب الحالية عدة مشكلات: (1) تداخل المعلومات الدلالية بين العينات المختلفة في مجموعة البيانات يعيق أداء النموذج في توحيد الخصائص متعددة الوسائط؛ (2) لا تستطيع النماذج الحالية استخراج الخصائص المحلية للفيديو بكفاءة عالية؛ (3) لا يمكن لمفكك الشفرة من نوع Transformer المستخدم في النموذج الحالي فك شفرة الخصائص متعددة الوسائط بشكل كافٍ. لحل هذه المشكلات، اقترحنا نموذج LD-DETR لأهداف استرجاع اللحظات الفيديوية وكشف النقاط البارزة. وبشكل محدد، قمنا أولاً بتقريب مصفوفة التشابه إلى المصفوفة الهويوية لتخفيف تأثير المعلومات الدلالية المتداخلة. ثم صممنا طريقة تمكّن الطبقات الإدراكية من استخراج الخصائص المحلية متعددة الوسائط بكفاءة أكبر. وأخيراً، قمنا بإعادة إدخال نتيجة مفكك الشفرة من نوع Transformer إلى نفسه لفك شفرة المعلومات متعددة الوسائط بشكل كافٍ.تم تقييم LD-DETR على أربع مقاييس عامة وتنفيذ العديد من التجارب الموسعة لإثبات تفوق وفعالية نهجنا. حقق نموذجنا أفضل الأداء مقارنة بأحدث النماذج على مجموعات البيانات QVHighlight، Charades-STA و TACoS. يمكن الوصول إلى رمزنا البرمجي عبر الرابط: https://github.com/qingchen239/ld-detr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LD-DETR: محول فك التشفير الدائري للكشف عن اللحظات في الفيديو وتحديد النقاط المهمة | مستندات | HyperAI