HyperAIHyperAI
منذ 2 أشهر

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير

Rongkun Zheng; Lu Qi; Xi Chen; Yi Wang; Kun Wang; Yu Qiao; Hengshuang Zhao
فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير
الملخص

الجهود الأخيرة في تقسيم الفيديو بالاستدلال (VRS) تكاملت بين نماذج اللغة الكبيرة (LLMs) ونماذج الإدراك لتحديد موقع الأشياء وتتبعها عبر التعليمات النصية، مما حقق نتائج مقبولة بشكل محدود في السيناريوهات البسيطة. ومع ذلك، واجهت هذه الجهود صعوبات في تمييز وإستنتاج الأشياء من استفسارات المستخدمين في المشاهد الواقعية المعقدة التي تتسم بفترات زمنية طويلة، وأشياء متعددة، وحركة سريعة، وحجب كثيف. في هذا العمل، نحلل أسباب هذه القيود ونقدم ViLLa: تقسيم الفيديو بالاستدلال باستخدام نموذج لغة كبير. بشكل ملحوظ، ينجح ViLLa في التغلب على هذه التحديات من خلال عدة ابتكارات أساسية: (1) محرك سياق ديناميكي يرمّز نوايا المستخدم مع سياقات الفيديو بدقة للقيام بالاستدلال، مما يحل الغموض في الاستفسارات المعقدة، و(2) مُنسِّق زمني هرمي يفكك تفاعلات الأشياء المتعددة عبر سيناريوهات زمنية معقدة من خلال نمذجة تفاعلات الأشياء المتعددة على مستويات زمنية محلية وكاملة. بالإضافة إلى ذلك، لتمكين معالجة الفيديوهات الطويلة بكفاءة، يدمج ViLLa (3) عينة قطاع رئيسية تقوم بتقسيم الفيديوهات الطويلة إلى مقاطع أقصر ولكن غنية بالمحتوى الدلالي لتقليل التكرار. علاوة على ذلك، لتعزيز البحث في هذا المجال غير المستكشف، قمنا بإنشاء معيار VRS جديد باسم VideoReasonSeg يتضمن سيناريوهات معقدة مختلفة. كما أن نموذجنا يظهر نتائج رائدة على VideoReasonSeg وRef-YouTube-VOS وRef-DAVIS17 وMeViS وReVOS. تثبت التجارب الكمية والنوعية أن طريقتنا تعزز بشكل فعال قدرات تقسيم الفيديو بالاستدلال لنماذج اللغة متعددة الوسائط الكبيرة. سيتم توفير الشفرة والبيانات في https://github.com/rkzheng99/ViLLa.

فيلا: تقسيم الفيديو بالاستدلال باستخدام نموذج اللغة الكبير | أحدث الأوراق البحثية | HyperAI