الملخص

الترجمة العربية:تعتمد التقنيات الحالية لفصل الأشياء في الفيديو (VOS) على تعليمات صريحة من المستخدم، مثل الفئات أو الأقنعة أو العبارات القصيرة، مما يحد من قدرتها على تنفيذ فصل فيديو معقد يتطلب التفكير باستخدام المعرفة العالمية. في هذا البحث، نقدم مهمة جديدة تُسمى فصل الأشياء في الفيديو بالتفكير (ReasonVOS). تهدف هذه المهمة إلى إنشاء سلسلة من أقنعة الفصل كرد على استفسارات نصية ضمنية تتطلب قدرات تفكير معقدة تستند إلى المعرفة العالمية وسياقات الفيديو، وهي أمر حاسم لفهم البيئة المنظمة والتفاعلات المحورها حول الأشياء، وهو ما يعتبر أساسياً في تطوير الذكاء الاصطناعي الجسدي. لمعالجة ReasonVOS، نقدم VISA (مساعد الفصل الموجه باللغة الطبيعية المستند إلى الفيديو)، والذي يستفيد من قدرات التفكير بالمعرفة العالمية للنماذج اللغوية متعددة الوسائط الكبيرة بينما يمتلك القدرة على فصل وتتبع الأشياء في الفيديوهات باستخدام مفكك الأقنعة. بالإضافة إلى ذلك، أنشأنا مقاييس شاملة تتكون من 35,074 زوجاً من تعليمات-الأقنعة المتتابعة من 1,042 فيديو متنوع، والتي تدمج التفكير المعقد بالمعرفة العالمية في مهام الفصل لأغراض ضبط التعليمات وتقييم نماذج ReasonVOS. أظهرت التجارب التي أجريت على 8 مجموعات بيانات فعالية VISA في التعامل مع فصل التفكير المعقد وفصل الإشارة البسيطة كلها في مجالات الفيديو والصور. يمكن الوصول إلى الكود والمجموعة البيانات عبر الرابط: https://github.com/cilinyan/VISA.ملاحظات:- تم استخدام المصطلح "فصل الأشياء" بدلاً من "Segmentation" لتكون أكثر وضوحًا للمستوى العام.- "Reasoning Video Object Segmentation (ReasonVOS)" تم ترجمتها إلى "فصل الأشياء في الفيديو بالتفكير (ReasonVOS)" للحفاظ على الدقة والوضوح.- "Video-based large language Instructed Segmentation Assistant (VISA)" تم ترجمتها بشكل مباشر مع الحفاظ على الاختصار "VISA".- تم استخدام المصطلح "الذكاء الاصطناعي الجسدي" لـ "embodied AI" لأنه الأكثر شيوعًا واستخدامًا في المجال العربي.- تم الحفاظ على الروابط الإلكترونية كما هي دون ترجمتها.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VISA: تجزئة الأشياء في مقاطع الفيديو من خلال نماذج اللغة الكبيرة

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters