HyperAIHyperAI
منذ 2 أشهر

VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة

Cilin Yan; Haochen Wang; Shilin Yan; Xiaolong Jiang; Yao Hu; Guoliang Kang; Weidi Xie; Efstratios Gavves
VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة
الملخص

الترجمة العربية:تعتمد التقنيات الحالية لفصل الأشياء في الفيديو (VOS) على تعليمات صريحة من المستخدم، مثل الفئات أو الأقنعة أو العبارات القصيرة، مما يحد من قدرتها على تنفيذ فصل فيديو معقد يتطلب التفكير باستخدام المعرفة العالمية. في هذا البحث، نقدم مهمة جديدة تُسمى فصل الأشياء في الفيديو بالتفكير (ReasonVOS). تهدف هذه المهمة إلى إنشاء سلسلة من أقنعة الفصل كرد على استفسارات نصية ضمنية تتطلب قدرات تفكير معقدة تستند إلى المعرفة العالمية وسياقات الفيديو، وهي أمر حاسم لفهم البيئة المنظمة والتفاعلات المحورها حول الأشياء، وهو ما يعتبر أساسياً في تطوير الذكاء الاصطناعي الجسدي. لمعالجة ReasonVOS، نقدم VISA (مساعد الفصل الموجه باللغة الطبيعية المستند إلى الفيديو)، والذي يستفيد من قدرات التفكير بالمعرفة العالمية للنماذج اللغوية متعددة الوسائط الكبيرة بينما يمتلك القدرة على فصل وتتبع الأشياء في الفيديوهات باستخدام مفكك الأقنعة. بالإضافة إلى ذلك، أنشأنا مقاييس شاملة تتكون من 35,074 زوجاً من تعليمات-الأقنعة المتتابعة من 1,042 فيديو متنوع، والتي تدمج التفكير المعقد بالمعرفة العالمية في مهام الفصل لأغراض ضبط التعليمات وتقييم نماذج ReasonVOS. أظهرت التجارب التي أجريت على 8 مجموعات بيانات فعالية VISA في التعامل مع فصل التفكير المعقد وفصل الإشارة البسيطة كلها في مجالات الفيديو والصور. يمكن الوصول إلى الكود والمجموعة البيانات عبر الرابط: https://github.com/cilinyan/VISA.ملاحظات:- تم استخدام المصطلح "فصل الأشياء" بدلاً من "Segmentation" لتكون أكثر وضوحًا للمستوى العام.- "Reasoning Video Object Segmentation (ReasonVOS)" تم ترجمتها إلى "فصل الأشياء في الفيديو بالتفكير (ReasonVOS)" للحفاظ على الدقة والوضوح.- "Video-based large language Instructed Segmentation Assistant (VISA)" تم ترجمتها بشكل مباشر مع الحفاظ على الاختصار "VISA".- تم استخدام المصطلح "الذكاء الاصطناعي الجسدي" لـ "embodied AI" لأنه الأكثر شيوعًا واستخدامًا في المجال العربي.- تم الحفاظ على الروابط الإلكترونية كما هي دون ترجمتها.

VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة | أحدث الأوراق البحثية | HyperAI