HyperAIHyperAI

Command Palette

Search for a command to run...

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

الجهود الأخيرة في تقسيم الفيديو بالاستدلال (VRS) تكاملت بين نماذج اللغة الكبيرة (LLMs) ونماذج الإدراك لتحديد موقع الأشياء وتتبعها عبر التعليمات النصية، مما حقق نتائج مقبولة بشكل محدود في السيناريوهات البسيطة. ومع ذلك، واجهت هذه الجهود صعوبات في تمييز وإستنتاج الأشياء من استفسارات المستخدمين في المشاهد الواقعية المعقدة التي تتسم بفترات زمنية طويلة، وأشياء متعددة، وحركة سريعة، وحجب كثيف. في هذا العمل، نحلل أسباب هذه القيود ونقدم ViLLa: تقسيم الفيديو بالاستدلال باستخدام نموذج لغة كبير. بشكل ملحوظ، ينجح ViLLa في التغلب على هذه التحديات من خلال عدة ابتكارات أساسية: (1) محرك سياق ديناميكي يرمّز نوايا المستخدم مع سياقات الفيديو بدقة للقيام بالاستدلال، مما يحل الغموض في الاستفسارات المعقدة، و(2) مُنسِّق زمني هرمي يفكك تفاعلات الأشياء المتعددة عبر سيناريوهات زمنية معقدة من خلال نمذجة تفاعلات الأشياء المتعددة على مستويات زمنية محلية وكاملة. بالإضافة إلى ذلك، لتمكين معالجة الفيديوهات الطويلة بكفاءة، يدمج ViLLa (3) عينة قطاع رئيسية تقوم بتقسيم الفيديوهات الطويلة إلى مقاطع أقصر ولكن غنية بالمحتوى الدلالي لتقليل التكرار. علاوة على ذلك، لتعزيز البحث في هذا المجال غير المستكشف، قمنا بإنشاء معيار VRS جديد باسم VideoReasonSeg يتضمن سيناريوهات معقدة مختلفة. كما أن نموذجنا يظهر نتائج رائدة على VideoReasonSeg وRef-YouTube-VOS وRef-DAVIS17 وMeViS وReVOS. تثبت التجارب الكمية والنوعية أن طريقتنا تعزز بشكل فعال قدرات تقسيم الفيديو بالاستدلال لنماذج اللغة متعددة الوسائط الكبيرة. سيتم توفير الشفرة والبيانات في https://github.com/rkzheng99/ViLLa.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير | مستندات | HyperAI