HyperAIHyperAI

Command Palette

Search for a command to run...

فهم المشاهد الديناميكية من تمثيلات الرؤية واللغة

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

الملخص

الصور التي تصور مشاهد معقدة وديناميكية تمثل تحديًا في التحليل الآلي، حيث تتطلب فهمًا رفيع المستوى للحالة العامة وتعرفًا دقيقًا على الكيانات المشاركة وتفاعلاتهم. الطرق الحالية تستخدم أساليب متميزة مصممة خصيصًا للمهام الفرعية مثل التعرف على الموقف وكشف التفاعلات بين الإنسان والإنسان وبين الإنسان والأشياء. ومع ذلك، فقد غالباً ما استفادت التقدمات الحديثة في فهم الصور من تمثيلات الرؤية-اللغة (V&L) على نطاق الويب لتجنب الهندسة الخاصة بالمهام. في هذا العمل، نقترح إطارًا لمهام فهم المشاهد الديناميكية من خلال الاستفادة من المعرفة المستمدة من تمثيلات الرؤية-اللغة الحديثة والمجمدة. بوضع هذه المهام بطريقة عامة - كتنبؤ وتحليل النص الهيكلي، أو عن طريق ضم التمثيلات مباشرة إلى مدخلات النماذج الموجودة - نحقق أفضل النتائج الحالية باستخدام عدد قليل جدًا من المعلمات القابلة للتدريب مقارنة بالأساليب الحالية. بالإضافة إلى ذلك، يظهر تحليلنا للمعرفة الديناميكية لهذه التمثيلات أن التمثيلات الأكثر قوة حديثاً تقوم بتشفير معاني المشاهد الديناميكية بشكل فعال، مما يجعل هذا الأسلوب ممكنًا حديثاً.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp