HyperAIHyperAI
منذ 4 أشهر

نحو استرجاع نص إلى فيديو كفء وفعال من خلال تعلم تمثيل بصرية من الخشن إلى الدقيق

Kaibin Tian; Yanhua Cheng; Yi Liu; Xinglin Hou; Quan Chen; Han Li
نحو استرجاع نص إلى فيديو كفء وفعال من خلال تعلم تمثيل بصرية من الخشن إلى الدقيق
الملخص

في السنوات الأخيرة، شهدت طرق استرجاع الفيديو من النص (text-to-video retrieval) المستندة إلى CLIP تطورًا سريعًا. الاتجاه الرئيسي للتطور يتمثل في استغلال نطاق أوسع بكثير من المؤشرات البصرية والنصية لتحقيق التوافق. بصفة محددة، غالبًا ما يصمم الأساليب ذات الأداء المتميز كتلة دمج ثقيلة لتفاعل الجمل (الكلمات) مع الفيديو (الإطارات)، دون النظر إلى التعقيد الحاسوبي المحظور. ومع ذلك، فإن هذه الأساليب ليست مثلى من حيث استخدام الخصائص وكفاءة الاسترجاع. لمعالجة هذه المشكلة، نعتمد على تعلم الخصائص البصرية متعددة الدقة، مما يضمن شمولية النموذج في التقاط خصائص المحتوى البصري التي تمتد من المستوى المجرد إلى المستوى التفصيلي خلال مرحلة التدريب. لاستغلال أفضل للخصائص متعددة الدقة، نقترح هندسة استرجاع ثنائية المرحلة في مرحلة الاسترجاع. هذا الحل يوازن ببراعة بين الدقة الخشنة والتفصيلية لمحتوى الاسترجاع. بالإضافة إلى ذلك، فإنه يحقق توازنًا متناغمًا بين فعالية الاسترجاع وكفاءته. بشكل خاص، في مرحلة التدريب، نصمم كتلة تفاعل بدون معلمات (TIB) لتعلم تمثيل الفيديو التفصيلي وندمج قيد بيرسون إضافيًّا (Pearson Constraint) لتحسين تعلم التمثيل عبر الأنظمة المتعددة. في مرحلة الاسترجاع، نستخدم تمثيلات الفيديو الخشنة للاستدعاء السريع لأفضل k مرشح، والتي يتم إعادة تصنيفها بعد ذلك بواسطة تمثيلات الفيديو التفصيلية. أظهرت التجارب الواسعة على أربعة مقاييس فعالية وكفاءة الطريقة المقترحة. وبشكل ملفت للنظر، حققت طرقتنا أداءً مكافئًا للمethods الحالية الأكثر تقدمًا بينما كانت أسرع بمقدار حوالي 50 مرة.