منذ 2 أشهر

LanguageBind: توسيع التدريب المسبق للفيديو واللغة إلى ن-نمطية من خلال التناسق الدلالي القائم على اللغة

Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan

عرض تفاصيل الورقة البحثية

LanguageBind: توسيع التدريب المسبق للفيديو واللغة إلى ن-نمطية من خلال التناسق الدلالي القائم على اللغة

الملخص

حققت التدريب المسبق للفيديو واللغة (VL) تحسينًا ملحوظًا في العديد من المهام اللاحقة. ومع ذلك، يصعب توسيع إطار التدريب المسبق الحالي للفيديو واللغة إلى وسائط متعددة (N وسائط، N≥3) تتجاوز الرؤية واللغة. لذلك، نقترح LanguageBind، حيث يتم استخدام اللغة كوسيلة ربط بين الوسائط المختلفة لأن اللغة تم استكشافها بشكل جيد وتتضمن معانيًا غنية. بصفة خاصة، نجمد مُشفِّر اللغة الذي تم الحصول عليه من خلال التدريب المسبق للفيديو واللغة، ثم نتدرب على مُشفِّرات الوسائط الأخرى باستخدام التعلم التضادي. نتيجة لذلك، يتم خرائط جميع الوسائط إلى فضاء خصائص مشترك، مما يحقق تناسق دلالي متعدد الوسائط. بينما يضمن LanguageBind إمكانية توسيع وسائط الفيديو واللغة إلى N وسائط، فإننا نحتاج أيضًا إلى مجموعة بيانات عالية الجودة تحتوي على أزواج بيانات متناسقة محورها اللغة. لذلك، نقترح VIDAL-10M التي تتضمن الفيديو والأشعة تحت الحمراء والعمق الصوتي وأوصافهم النصية المرتبطة بها، والتي نطلق عليها اسم VIDAL-10M. في VIDAL-10M الخاصة بنا، تكون جميع مقاطع الفيديو من منصات الفيديوهات القصيرة ذات المعاني الكاملة وليس من مقاطع طويلة مقطوعة منها، ويتم تناسق جميع وسائط الفيديو والعمق والإشعاع تحت الحمري والأصوات مع أوصافها النصية. حقق LanguageBind أداءً أفضل بكثير في نطاق واسع يشمل 15 مقاييس تغطي الفيديو والأصوات والعمق والإشعاع تحت الحمري. بالإضافة إلى ذلك، قدمت العديد من التجارب أدلة على فعالية LanguageBind في تحقيق التناسق غير المباشر والتكميلية بين الوسائط المتعددة والمتنوعة.رابط الكود: https://github.com/PKU-YuanGroup/LanguageBind