HyperAIHyperAI
منذ 2 أشهر

ساموايز: إضفاء الحكمة على SAM2 للتقسيم الفيديوي الموجه بالنص

Claudia Cuttano; Gabriele Trivigno; Gabriele Rosi; Carlo Masone; Giuseppe Averta
ساموايز: إضفاء الحكمة على SAM2 للتقسيم الفيديوي الموجه بالنص
الملخص

التمييز بين الأشياء في الفيديو بالرجوع إلى الرسوم المتحركة (RVOS) يعتمد على التعبيرات اللغوية الطبيعية لفصل كائن في مقطع فيديو. تقتصر الطرق الحالية إما على مقاطع قصيرة مستقلة، مما يؤدي إلى فقدان السياق العالمي، أو تعالج الفيديو بأكمله بطريقة غير متصلة، مما يحد من تطبيقاتها في السيناريوهات المتدفقة. في هذا العمل، نهدف إلى تجاوز هذه القيود وتصميم طريقة RVOS قادرة على العمل بكفاءة في سيناريوهات مشابهة للتدفق مع الحفاظ على المعلومات السياقية من الإطارات السابقة. نبني على نموذج Segment-Anything 2 (SAM2)، الذي يوفر قدرات فصل وتعقب قوية وهو مناسب بشكل طبيعي للمعالجة المتدفقة. نجعل SAM2 أكثر حكمة من خلال تعزيزه بفهم اللغة الطبيعية والنمذجة الزمنية الصريحة في مرحلة استخراج الميزات، دون ضبط دقيق لأوزانه، وعدم اللجوء إلى النماذج الخارجية لتداخل الوسائط المتعددة. لهذا الغرض، نقدم وحدة متكيفة جديدة تحقن المعلومات الزمنية والدلائل متعددة الوسائط في عملية استخراج الميزات. كما نكشف عن ظاهرة التحيز في التعقب في SAM2 ونقترح وحدة قابلة للتعلم لتعديل تركيز التعقب عندما تقترح ميزات الإطار الحالي كائنًا جديدًا أكثر توافقًا مع التسمية التوضيحية. يحقق طرحتنا SAMWISE أحدث النتائج الرائدة عبر مختلف المقاييس بإضافة عبء زائد قليل لا يتجاوز 5 ميجا بايت من المعلمات. يمكن الحصول على الكود من https://github.com/ClaudiaCuttano/SAMWISE .