منذ 7 أشهر

الملخص

يسعى هذا البحث إلى تحقيق تقسيم البكسلات للأشخاص وأفعالهم في محتوى الفيديو. على عكس الأعمال السابقة، التي تتعلم جميعها التقسيم من قاموس ثابت لأزواج الشخصيات والأفعال، نحن نستنتج التقسيم من جملة مدخل بلغة طبيعية. هذا يسمح بالتمييز بين الشخصيات الدقيقة في نفس الفئة العليا، وتحديد حالات الشخصيات والأفعال، وتقسيم الأزواج التي تكون خارج قاموس الشخصيات والأفعال. نقترح نموذجًا كليًا متعدد الطبقات (fully-convolutional) لتقسيم البكسلات للشخصيات والأفعال باستخدام هندسة مشفر-فاكِّت (encoder-decoder) مُحسَّنة للفيديو. لإظهار إمكانات تقسيم الفيديو للشخصيات والأفعال من جملة، قدمنا توسعًا لاثنين من أشهر قواعد البيانات المتعلقة بالشخصيات والأفعال بأكثر من 7,500 وصف بلغة طبيعية. تظهر التجارب جودة التقسيمات الموجهة بالجمل، وقدرة النموذج على التعميم، ومزاياه بالنسبة لتقنيات التقسيم التقليدية للشخصيات والأفعال مقارنة بأحدث الأساليب.请注意，"fully-convolutional" 和 "encoder-decoder" 是专业术语，通常在阿拉伯语中会保留其英文形式，但为了更符合阿拉伯语的表达习惯，这里将其翻译为“كليًا متعدد الطبقات” 和 “مشفر-فاكِّت”。如果需要保留英文术语，请告知我。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار