HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة الانحدار الكثيفة لتحديد موقع الفيديو

Zeng Runhao ; Xu Haoming ; Huang Wenbing ; Chen Peihao ; Tan Mingkui ; Gan Chuang

الملخص

نتناول مشكلة ترسيخ الفيديو من استفسارات اللغة الطبيعية. التحدي الرئيسي في هذه المهمة هو أن مقطع تدريبيًا واحدًا قد يحتوي فقط على عدد قليل من الإطارات الابتدائية/النهائية المُشَرَّحة التي يمكن استخدامها كأمثلة إيجابية لتدريب النموذج. معظم الأساليب التقليدية تقوم بتدريب تصنيف ثنائي مباشرة باستخدام مثل هذه البيانات غير المتوازنة، مما يؤدي إلى نتائج ضعيفة. الفكرة الرئيسية لهذا البحث هي استخدام المسافات بين الإطار داخل الحقيقة الأرضية والإطار الابتدائي (أو النهائي) كإشراف كثيف لتحسين دقة ترسيخ الفيديو. بشكل خاص، صممنا شبكة انحدار كثيفة جديدة (Dense Regression Network - DRN) لانحدار المسافات من كل إطار إلى الإطار الابتدائي (أو النهائي) لمقطع الفيديو الذي يصفه الاستفسار. كما اقترحنا وحدة رأس بسيطة ولكن فعالة للانحدار IoU لاعتبار جودة تحديد الموقع للنتائج المرسخة (أي، معامل تقاطع على الاتحاد IoU بين الموقع المتوقع والحقيقة الأرضية). تظهر النتائج التجريبية أن أسلوبنا يتفوق بشكل كبير على أفضل الأساليب الحالية في ثلاثة مجموعات بيانات (أي، Charades-STA، ActivityNet-Captions، و TACoS).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة الانحدار الكثيفة لتحديد موقع الفيديو | مستندات | HyperAI