HyperAIHyperAI
منذ 2 أشهر

تقسيم الفيديو للفاعل والفعل من جملة

Kirill Gavrilyuk; Amir Ghodrati; Zhenyang Li; Cees G.M. Snoek
تقسيم الفيديو للفاعل والفعل من جملة
الملخص

يسعى هذا البحث إلى تحقيق تقسيم البكسلات للأشخاص وأفعالهم في محتوى الفيديو. على عكس الأعمال السابقة، التي تتعلم جميعها التقسيم من قاموس ثابت لأزواج الشخصيات والأفعال، نحن نستنتج التقسيم من جملة مدخل بلغة طبيعية. هذا يسمح بالتمييز بين الشخصيات الدقيقة في نفس الفئة العليا، وتحديد حالات الشخصيات والأفعال، وتقسيم الأزواج التي تكون خارج قاموس الشخصيات والأفعال. نقترح نموذجًا كليًا متعدد الطبقات (fully-convolutional) لتقسيم البكسلات للشخصيات والأفعال باستخدام هندسة مشفر-فاكِّت (encoder-decoder) مُحسَّنة للفيديو. لإظهار إمكانات تقسيم الفيديو للشخصيات والأفعال من جملة، قدمنا توسعًا لاثنين من أشهر قواعد البيانات المتعلقة بالشخصيات والأفعال بأكثر من 7,500 وصف بلغة طبيعية. تظهر التجارب جودة التقسيمات الموجهة بالجمل، وقدرة النموذج على التعميم، ومزاياه بالنسبة لتقنيات التقسيم التقليدية للشخصيات والأفعال مقارنة بأحدث الأساليب.请注意,"fully-convolutional" 和 "encoder-decoder" 是专业术语,通常在阿拉伯语中会保留其英文形式,但为了更符合阿拉伯语的表达习惯,这里将其翻译为“كليًا متعدد الطبقات” 和 “مشفر-فاكِّت”。如果需要保留英文术语,请告知我。

تقسيم الفيديو للفاعل والفعل من جملة | أحدث الأوراق البحثية | HyperAI