HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل الرؤية-اللغة المثبت للفهم المتعدد في مقاطع الفيديو غير المقصوصة

Teng Wang Jinrui Zhang Feng Zheng Wenhao Jiang Ran Cheng Ping Luo

الملخص

تلقت التعلم المشترك بين الفيديو واللغة اهتمامًا متزايدًا في السنوات الأخيرة. ومع ذلك، تركز الأعمال الحالية بشكل أساسي على مقاطع فيديو مقصوصة واحدة أو متعددة (أحداث)، مما يجعل حدود الأحداث التي تم تحديدها من قبل البشر ضرورية أثناء الاستدلال. لفك الارتباط عن هذه القيود، نقترح إطارًا للتعلم المشترك بين الرؤية واللغة للمقاطع غير المقصوصة من الفيديو، والذي يكتشف تلقائيًا الأحداث المعلوماتية ويحفز التوافق بين الوصف الجمل المتعدد وأقسام الأحداث المقابلة. بدلاً من توافق الفيديو واللغة على مستوى خشن، نقدم مهامين مزدوجتين كمهام سياقية لتشجيع التوافق على مستوى الأقسام الدقيقة، وهما: ربط النص بالحدث (Text-to-Event Grounding - TEG) وتكوين النص من الحدث (Event-to-Text Generation - ETG). يتعلم TEG كيفية ربط مقترحات الأحداث بشكل متكيف مع مجموعة من الجمل من خلال تقدير المسافة متعددة الوسائط في فضاء دلالي مشترك. في الوقت نفسه، يهدف ETG إلى إعادة بناء (إنشاء) النصوص المطابقة مع مقترحات الأحداث، مما يشجع تمثيل الحدث على الاحتفاظ بمعلومات دلالية ذات معنى. لتشجيع تعيين العلامات بدقة بين مجموعة الأحداث ومجموعة النصوص، نقترح تكلفة جديدة واعية للدلالة لتخفيف نتائج التطابق غير المثلى التي تسببها حدود التسمية الغامضة. يمكن توسيع إطارنا بسهولة ليشمل مهامًا تتراوح بين فهم اللغة المرتكزة بصريًا وإنشائها. حققنا أداءً قياسيًا في تعليقات الفيديو الكثيفة على ActivityNet Captions و YouCook2 و YouMakeup، وأداءً تنافسيًا في عدة مهام أخرى لإنشاء اللغة وفهمها. كما حصلت طرقنا على المركز الأول في كل من مهمتي MTVG و MDVC ضمن تحدي PIC الرابع. يتم توفير شفرتنا المصدر بشكل عام على الرابط https://github.com/zjr2000/GVL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp