HyperAIHyperAI
منذ 2 أشهر

ReferDINO: تقسيم الأشياء المرئية في الفيديو باستخدام أسس التوضع البصري

Tianming Liang; Kun-Yu Lin; Chaolei Tan; Jianguo Zhang; Wei-Shi Zheng; Jian-Fang Hu
ReferDINO: تقسيم الأشياء المرئية في الفيديو باستخدام أسس التوضع البصري
الملخص

يهدف تقسيم الأشياء في الفيديو بالرجوع إلى النص (RVOS) إلى تقسيم الأهداف المحددة طوال مقطع الفيديو بناءً على وصف نصي. رغم التقدم الملحوظ في السنوات الأخيرة، لا تزال النماذج الحالية لـ RVOS تواجه صعوبات في التعامل مع وصف الأشياء المعقد بسبب فهمها المحدود للفيديو واللغة. لمعالجة هذه القيود، نقدم \textbf{ReferDINO}، وهو نموذج RVOS شامل يرث فهمًا قويًا بين الرؤية واللغة من النماذج الأساسية المدربة مسبقًا، ويُمنح أيضًا قدرات فعالة في الفهم الزمني وتقسيم الأشياء. في \textbf{ReferDINO}، نساهم بثلاث ابتكارات تقنية لتعزيز كفاءة تكيف النماذج الأساسية مع RVOS: 1) تعزيز زمني متسق مع الأشياء يستفيد من تمثيلات الأشياء-النصوص المدربة مسبقًا لتحسين الفهم الزمني والاتساق بين الأشياء؛ 2) محول أقنعة متغير بارتباط الأرضية الذي يدمج الشروط النصية والأرضية لإنتاج أقنعة دقيقة للأهداف؛ 3) استراتيجية تقليم الاستعلامات القائمة على الثقة التي تحسن بشكل كبير كفاءة تفكيش الأهداف دون التأثير على الأداء. نجري تجارب واسعة على خمس مقاييس عامة لـ RVOS لتوضيح أن النموذج المقترح \textbf{ReferDINO} يتفوق بشكل كبير على أفضل الأساليب الحالية. صفحة المشروع: \url{https://isee-laboratory.github.io/ReferDINO}

ReferDINO: تقسيم الأشياء المرئية في الفيديو باستخدام أسس التوضع البصري | أحدث الأوراق البحثية | HyperAI