منذ 2 أشهر

تعلم تمثيل الرؤية-اللغة المثبت للفهم المتعدد في مقاطع الفيديو غير المقصوصة

Wang, Teng ; Zhang, Jinrui ; Zheng, Feng ; Jiang, Wenhao ; Cheng, Ran ; Luo, Ping

الملخص

تلقت التعلم المشترك بين الفيديو واللغة اهتمامًا متزايدًا في السنوات الأخيرة. ومع ذلك، تركز الأعمال الحالية بشكل أساسي على مقاطع فيديو مقصوصة واحدة أو متعددة (أحداث)، مما يجعل حدود الأحداث التي تم تحديدها من قبل البشر ضرورية أثناء الاستدلال. لفك الارتباط عن هذه القيود، نقترح إطارًا للتعلم المشترك بين الرؤية واللغة للمقاطع غير المقصوصة من الفيديو، والذي يكتشف تلقائيًا الأحداث المعلوماتية ويحفز التوافق بين الوصف الجمل المتعدد وأقسام الأحداث المقابلة. بدلاً من توافق الفيديو واللغة على مستوى خشن، نقدم مهامين مزدوجتين كمهام سياقية لتشجيع التوافق على مستوى الأقسام الدقيقة، وهما: ربط النص بالحدث (Text-to-Event Grounding - TEG) وتكوين النص من الحدث (Event-to-Text Generation - ETG). يتعلم TEG كيفية ربط مقترحات الأحداث بشكل متكيف مع مجموعة من الجمل من خلال تقدير المسافة متعددة الوسائط في فضاء دلالي مشترك. في الوقت نفسه، يهدف ETG إلى إعادة بناء (إنشاء) النصوص المطابقة مع مقترحات الأحداث، مما يشجع تمثيل الحدث على الاحتفاظ بمعلومات دلالية ذات معنى. لتشجيع تعيين العلامات بدقة بين مجموعة الأحداث ومجموعة النصوص، نقترح تكلفة جديدة واعية للدلالة لتخفيف نتائج التطابق غير المثلى التي تسببها حدود التسمية الغامضة. يمكن توسيع إطارنا بسهولة ليشمل مهامًا تتراوح بين فهم اللغة المرتكزة بصريًا وإنشائها. حققنا أداءً قياسيًا في تعليقات الفيديو الكثيفة على ActivityNet Captions و YouCook2 و YouMakeup، وأداءً تنافسيًا في عدة مهام أخرى لإنشاء اللغة وفهمها. كما حصلت طرقنا على المركز الأول في كل من مهمتي MTVG و MDVC ضمن تحدي PIC الرابع. يتم توفير شفرتنا المصدر بشكل عام على الرابط https://github.com/zjr2000/GVL.