HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التمثيلي على الرسوم البيانية البصرية-الرمزية لفهم الفيديو

Effrosyni Mavroudi Benjamín Béjar Haro René Vidal

الملخص

تنشأ الأحداث في مقاطع الفيديو الطبيعية عادةً من التفاعلات المكانية-الزمنية بين الممثلين والأشياء وتشمل أنشطة وأصناف أشياء متعددة تحدث بالتوازي. لالتقاط هذا السياق البصري والدلالاتي الغني، نقترح استخدام رسومين بيانين: (1) رسم بياني بصري مكاني-زماني مُنسَب، حيث تتوافق العقد مع الممثلين والأشياء وتُشفر الحواف أنواعًا مختلفة من التفاعلات، و(2) رسم بياني رمزي يُنمذِج العلاقات الدلالاتية. نقترح أيضًا شبكة عصبية بيانية لتحسين تمثيلات الممثلين والأشياء وتفاعلاتهم على الرسم البياني الهجين الناتج. يتخطى نموذجنا النهج الحالي الذي يفترض أن العقد والحواف هي من نفس النوع، ويتعامل مع الرسوم البيانية ذات أوزان حواف ثابتة ولا يستخدم رسمًا بيانيًا رمزيًا. وبشكل خاص، فإن إطار عملنا: أ) لديه دوال رسالة مبنية على الانتباه المتخصص لأنواع العقد والحواف المختلفة؛ ب) يستخدم خصائص حواف بصرية؛ ج) يدمج الأدلة البصرية بالعلاقات بين التسميات؛ د) يقوم بالاستدلال العالمي في الفضاء الدلالي. تظهر التجارب على مهام صعبة فهم الفيديو، مثل تحديد الأنشطة الزمنية في مجموعة بيانات Charades (مجموعة بيانات شارات)، أن الطريقة المقترحة تقود إلى أفضل الأداء حتى الآن.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم التمثيلي على الرسوم البيانية البصرية-الرمزية لفهم الفيديو | مستندات | HyperAI