HyperAIHyperAI

Command Palette

Search for a command to run...

SOC: تجميع كائنات مدعوم بالدلالات لفصل كائنات الفيديو التي تُشير إليها

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

الملخص

يدرس هذا البحث تقسيم كائنات الفيديو المرجعية (RVOS) من خلال تعزيز التوافق البصري-اللغوي على مستوى الفيديو. تُعالج الطرق الحديثة مهمة RVOS كمشكلة تنبؤ متسلسل، حيث تُنفَّذ التفاعل متعدد الوسائط والتقسيم لكل إطار بشكل منفصل. ومع ذلك، فإن غياب الرؤية الشاملة للمحتوى الفيديوي يؤدي إلى صعوبات في الاستفادة الفعالة من العلاقات بين الإطارات وفهم الوصف النصي للتغيرات الزمنية للكائنات. لمعالجة هذه المشكلة، نقترح نموذج التجميع الكائني المدعوم بالمعاني (SOC)، الذي يجمّع محتوى الفيديو والإرشادات النصية لتحقيق نمذجة زمنية موحدة وتوافق بين الوسائط. من خلال ربط مجموعة من تمثيلات الكائنات على مستوى الإطار برموز لغوية، يُسهّل SOC تعلم الفضاء المشترك عبر الوسائط والخطوات الزمنية. علاوةً على ذلك، نقدّم إشرافًا تباينيًا متعدد الوسائط لمساعدة بناء فضاء مشترك متماسك على مستوى الفيديو. أجرينا تجارب واسعة على معايير RVOS الشهيرة، وتفوّقت طريقة我们的 على أفضل النماذج الحالية في جميع المعايير بفارق كبير. بالإضافة إلى ذلك، يعزز التركيز على الاتساق الزمني استقرار التقسيم ومرونة طريقة العمل عند معالجة التعبيرات النصية التي تتضمن تغيرات زمنية. سيتم إتاحة الكود.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SOC: تجميع كائنات مدعوم بالدلالات لفصل كائنات الفيديو التي تُشير إليها | مستندات | HyperAI