HyperAIHyperAI

Command Palette

Search for a command to run...

الترميز المزدوج لاسترجاع الفيديو بواسطة النص

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

الملخص

هذا البحث يتناول المشكلة الصعبة لاسترجاع الفيديو بواسطة النص. في هذا النموذج من الاسترجاع، يقوم المستخدم النهائي بالبحث عن مقاطع الفيديو غير المصنفة من خلال استعلامات عفوية يتم وصفها بشكل حصري بجملة بلغة طبيعية، دون تقديم مثال بصري. نظرًا لأن الفيديوهات تُقدم كسلسلة من الإطارات والاستعلامات تُقدم كسلسلة من الكلمات، فإن التوافق متعدد الوسائط فعال بين السلاسل هو أمر حاسم. لتحقيق ذلك، يجب أولاً ترميز الوسيلتين إلى متجهات ذات قيم حقيقية ومن ثم إسقاطها في فضاء مشترك. في هذا البحث، نحقق ذلك من خلال اقتراح شبكة ترميز عميقة ثنائية تقوم بترميز الفيديوهات والاستعلامات إلى تمثيلات كثيفة قوية خاصة بهما.نوفيتنا مزدوجة. أولاً، على خلاف الأعمال السابقة التي تعتمد على مرمِّز مستوي واحد معين، تقوم الشبكة المقترحة بالترميز متعدد المستويات الذي يمثل المحتوى الغني لكلا الوسيلتين بطريقة تتدرج من الخشن إلى الدقيق. ثانيًا، على خلاف خوارزميات التعلم التقليدية للفضاء المشترك التي تكون إما قائمة على المفاهيم أو قائمة على الفضاء الكامن، نقدم التعلم في فضاء هجين يجمع بين الأداء العالي للفضاء الكامن والتفسير الجيد للفضاء المفاهيمي. يعتبر الترميز الثنائي بسيطًا بمفهومه وفعالاً في التطبيق ويتم تدريبه بنهاية واحدة باستخدام التعلم في الفضاء الهجين.أظهرت التجارب الواسعة على أربعة مجموعات بيانات فيديو صعبة جدًا أن الطريقة الجديدة قابلة للتطبيق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp