منذ 8 أشهر

الملخص

الجهود الأخيرة في تقسيم الفيديو بالاستدلال (VRS) تكاملت بين نماذج اللغة الكبيرة (LLMs) ونماذج الإدراك لتحديد موقع الأشياء وتتبعها عبر التعليمات النصية، مما حقق نتائج مقبولة بشكل محدود في السيناريوهات البسيطة. ومع ذلك، واجهت هذه الجهود صعوبات في تمييز وإستنتاج الأشياء من استفسارات المستخدمين في المشاهد الواقعية المعقدة التي تتسم بفترات زمنية طويلة، وأشياء متعددة، وحركة سريعة، وحجب كثيف. في هذا العمل، نحلل أسباب هذه القيود ونقدم ViLLa: تقسيم الفيديو بالاستدلال باستخدام نموذج لغة كبير. بشكل ملحوظ، ينجح ViLLa في التغلب على هذه التحديات من خلال عدة ابتكارات أساسية: (1) محرك سياق ديناميكي يرمّز نوايا المستخدم مع سياقات الفيديو بدقة للقيام بالاستدلال، مما يحل الغموض في الاستفسارات المعقدة، و(2) مُنسِّق زمني هرمي يفكك تفاعلات الأشياء المتعددة عبر سيناريوهات زمنية معقدة من خلال نمذجة تفاعلات الأشياء المتعددة على مستويات زمنية محلية وكاملة. بالإضافة إلى ذلك، لتمكين معالجة الفيديوهات الطويلة بكفاءة، يدمج ViLLa (3) عينة قطاع رئيسية تقوم بتقسيم الفيديوهات الطويلة إلى مقاطع أقصر ولكن غنية بالمحتوى الدلالي لتقليل التكرار. علاوة على ذلك، لتعزيز البحث في هذا المجال غير المستكشف، قمنا بإنشاء معيار VRS جديد باسم VideoReasonSeg يتضمن سيناريوهات معقدة مختلفة. كما أن نموذجنا يظهر نتائج رائدة على VideoReasonSeg وRef-YouTube-VOS وRef-DAVIS17 وMeViS وReVOS. تثبت التجارب الكمية والنوعية أن طريقتنا تعزز بشكل فعال قدرات تقسيم الفيديو بالاستدلال لنماذج اللغة متعددة الوسائط الكبيرة. سيتم توفير الشفرة والبيانات في https://github.com/rkzheng99/ViLLa.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير

Rongkun Zheng¹ Lu Qi² Xi Chen¹ Yi Wang³ Kun Wang⁴ Yu Qiao³ Hengshuang Zhao¹*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters