منذ 8 أشهر

الملخص

يهدف هذا البحث إلى دراسة كيفية تحقيق تعلم التضمين (embedding learning) بشكل أفضل وأكثر كفاءة لمعالجة مشكلة تقسيم الأشياء في الفيديو شبه المشرف (semi-supervised video object segmentation) في سيناريوهات معقدة تتضمن عدة أشياء. تتعلم الطرق الرائدة حاليًا كيفية فك رموز الخصائص بوجود جسم إيجابي واحد فقط، ولذلك يجب عليها مطابقة وتقسيم كل هدف على حدة في السيناريوهات التي تتضمن عدة أجسام، مما يستهلك موارد حوسبة متعددة الأضعاف. لحل هذه المشكلة، نقترح نهجًا جديدًا يُعرف باسم "ربط الأشياء بالترانسفورمر" (Associating Objects with Transformers - AOT) للتعامل مع مطابقة وتشفير عدة أجسام بطريقة موحدة. بالتفصيل، يستخدم AOT آلية تحديد لربط عدة أهداف في نفس الفضاء التضميني ذي البعد العالي. وهكذا يمكننا معالجة مطابقة وتشفير تقسيم عدة أجسام بفعالية مماثلة لمعالجة جسم واحد فقط. لتحقيق نموذج كافي للربط بين عدة أجسام، تم تصميم ترانسفورمر طويل المدى قصير المدى (Long Short-Term Transformer) لإنشاء مطابقة وتوزيع هرمي. أجرينا تجارب واسعة النطاق على مقاييس تقسيم الأجسام المتعددة والفردية لفحص شبكات AOT بمختلف مستويات التعقيد. وبشكل خاص، حقق نموذج R50-AOT-L الخاص بنا أفضل النتائج مقارنة بكافة المنافسين الرائدين حاليًا على ثلاثة مقاييس شعبية هي: YouTube-VOS (84.1% J&F)، DAVIS 2017 (84.9%)، وDAVIS 2016 (91.1%)، مع الحفاظ على سرعة تشغيل متعددة الأجسام بأكثر من ثلاث مرات أسرع. وفي الوقت نفسه، يمكن لنماذج AOT-T الخاصة بنا الحفاظ على سرعة تشغيل متعددة الأجسام في الوقت الحقيقي على تلك المقاييس. استنادًا إلى AOT، احتلنا المركز الأول في التحدي الكبير الثالث لتقسيم الأشياء في الفيديو (3rd Large-scale VOS Challenge).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار