LanguageBind: توسيع التدريب المسبق للفيديو واللغة إلى ن-نمطية من خلال التناسق الدلالي القائم على اللغة

حققت التدريب المسبق للفيديو واللغة (VL) تحسينًا ملحوظًا في العديد من المهام اللاحقة. ومع ذلك، يصعب توسيع إطار التدريب المسبق الحالي للفيديو واللغة إلى وسائط متعددة (N وسائط، N≥3) تتجاوز الرؤية واللغة. لذلك، نقترح LanguageBind، حيث يتم استخدام اللغة كوسيلة ربط بين الوسائط المختلفة لأن اللغة تم استكشافها بشكل جيد وتتضمن معانيًا غنية. بصفة خاصة، نجمد مُشفِّر اللغة الذي تم الحصول عليه من خلال التدريب المسبق للفيديو واللغة، ثم نتدرب على مُشفِّرات الوسائط الأخرى باستخدام التعلم التضادي. نتيجة لذلك، يتم خرائط جميع الوسائط إلى فضاء خصائص مشترك، مما يحقق تناسق دلالي متعدد الوسائط. بينما يضمن LanguageBind إمكانية توسيع وسائط الفيديو واللغة إلى N وسائط، فإننا نحتاج أيضًا إلى مجموعة بيانات عالية الجودة تحتوي على أزواج بيانات متناسقة محورها اللغة. لذلك، نقترح VIDAL-10M التي تتضمن الفيديو والأشعة تحت الحمراء والعمق الصوتي وأوصافهم النصية المرتبطة بها، والتي نطلق عليها اسم VIDAL-10M. في VIDAL-10M الخاصة بنا، تكون جميع مقاطع الفيديو من منصات الفيديوهات القصيرة ذات المعاني الكاملة وليس من مقاطع طويلة مقطوعة منها، ويتم تناسق جميع وسائط الفيديو والعمق والإشعاع تحت الحمري والأصوات مع أوصافها النصية. حقق LanguageBind أداءً أفضل بكثير في نطاق واسع يشمل 15 مقاييس تغطي الفيديو والأصوات والعمق والإشعاع تحت الحمري. بالإضافة إلى ذلك، قدمت العديد من التجارب أدلة على فعالية LanguageBind في تحقيق التناسق غير المباشر والتكميلية بين الوسائط المتعددة والمتنوعة.رابط الكود: https://github.com/PKU-YuanGroup/LanguageBind