HyperAIHyperAI

Command Palette

Search for a command to run...

ClawCraneNet: الاستفادة من العلاقات على مستوى الكائنات لتقسيم الفيديو القائم على النص

Chen Liang Yu Wu Yawei Luo Yi Yang

الملخص

التحليل النصي للفيديوهات هو مهمة صعبة تتطلب تقسيم الكائنات المذكورة بلغة طبيعية داخل الفيديوهات. وتعتمد هذه المهمة بشكل أساسي على الفهم الدلالي والفهم الدقيق للفيديوهات على مستوى رفيع. تُدخل الطرق الحالية تمثيل اللغة إلى نماذج التجزئة بطريقة من الأسفل إلى الأعلى، حيث تُجري تفاعلًا بين الرؤية واللغة ضمن مجالات استقبال محلية لشبكات التحويل (ConvNets) فقط. نحن نجادل بأن هذا التفاعل لا يُنفَّذ بشكل فعّال، إذ يعجز النموذج عن بناء علاقات على مستوى المناطق عند امتلاكه لملاحظات جزئية، وهو ما يتعارض مع منطق الوصف في اللغة الطبيعية أو التعبيرات الإشارية. في الواقع، يميل الناس إلى وصف كائن مستهدف باستخدام علاقاته مع كائنات أخرى، والتي قد لا تكون قابلة للفهم بسهولة دون مشاهدة الفيديو بالكامل. لحل هذه المشكلة، نقدّم منهجية جديدة من الأعلى إلى الأسفل، مُقلدةً الطريقة التي نُحلّل بها البشر كائنًا باستخدام توجيه لغوي. نبدأ بتحديد جميع الكائنات المرشحة في الفيديو، ثم نختار الكائن المقصود من خلال تحليل العلاقات بين هذه الكائنات عالية المستوى. ونستعرض ثلاث أنواع من العلاقات على مستوى الكائنات لتحقيق فهم دقيق للعلاقات، وهي: العلاقة المكانية، والعلاقة الدلالية المُوجهة بالنص، والعلاقة الزمنية. أظهرت التجارب الواسعة على مجموعتي البيانات A2D Sentences وJ-HMDB Sentences أن أسلوبنا يتفوق على أفضل الطرق الحالية بفارق كبير. كما تُظهر النتائج الكمية أن النتائج التي نحصل عليها أكثر قابلية للتفسير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ClawCraneNet: الاستفادة من العلاقات على مستوى الكائنات لتقسيم الفيديو القائم على النص | مستندات | HyperAI