HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف نماذج التمايز النصية إلى الفيديو المُدرَّبة مسبقًا لفصل كائنات الفيديو المرجعية

Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua

الملخص

في هذه الورقة، نستكشف التمثيلات البصرية الناتجة عن نموذج توليد الفيديو من النص (T2V) المُدرَّب مسبقًا باستخدام تشتت (diffusion) لمهام فهم الفيديو. نفترض أن التمثيل الخفي المُتعلم من نموذج T2V التوليدي المُدرَّب مسبقًا يحتوي على معاني غنية وتوافق زمني متماسك، مما يسهل بشكل طبيعي مهام فهم الفيديو. ونُثبت هذا الافتراض من خلال مهمة تقسيم كائنات الفيديو المرجعية الكلاسيكية (R-VOS). نقدّم إطارًا جديدًا يُسمّى "VD-IT"، مصممًا خصيصًا باستخدام مكونات مُعدّة بدقة بناءً على نموذج T2V المُدرَّب مسبقًا وثابت. وبشكل خاص، يستخدم VD-IT المعلومات النصية كمدخل شرطي، مما يضمن التماسك المعنوي عبر الزمن لتقديم مطابقة زمنية دقيقة للInstances. كما يدمج VD-IT رموز الصور كمدخلات نصية مكملة، مما يُثري مجموعة الميزات ويُنتج قوالب مفصلة ودقيقة. علاوة على ذلك، بدلًا من استخدام الضوضاء العشوائية القياسية، نقترح التنبؤ بضوضاء مخصصة للفيديو باستخدام وحدة إضافية للتنبؤ بالضوضاء، والتي تساعد في الحفاظ على جودة الميزات وتحسين جودة التقسيم. من خلال تجارب واسعة النطاق، لاحظنا بشكل مفاجئ أن النماذج التوليدية الثابتة لـ T2V، على عكس المُشغّلات الشائعة للفيديو (مثل Video Swin Transformer) التي تُدرَّب مسبقًا باستخدام مهام تمييزية للصور/الفيديو، تمتلك إمكانات أفضل للحفاظ على التوافق المعنوي والاتساق الزمني. وعلى معايير معيارية موجودة، يحقق VD-IT نتائج تنافسية للغاية، متفوقًا على العديد من الطرق المتطورة الحالية. يمكن الوصول إلى الكود من خلال: https://github.com/buxiangzhiren/VD-IT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp