HyperAIHyperAI
منذ 2 أشهر

فهم المشاهد الديناميكية من تمثيلات الرؤية واللغة

Pruss, Shahaf ; Alper, Morris ; Averbuch-Elor, Hadar
فهم المشاهد الديناميكية من تمثيلات الرؤية واللغة
الملخص

الصور التي تصور مشاهد معقدة وديناميكية تمثل تحديًا في التحليل الآلي، حيث تتطلب فهمًا رفيع المستوى للحالة العامة وتعرفًا دقيقًا على الكيانات المشاركة وتفاعلاتهم. الطرق الحالية تستخدم أساليب متميزة مصممة خصيصًا للمهام الفرعية مثل التعرف على الموقف وكشف التفاعلات بين الإنسان والإنسان وبين الإنسان والأشياء. ومع ذلك، فقد غالباً ما استفادت التقدمات الحديثة في فهم الصور من تمثيلات الرؤية-اللغة (V&L) على نطاق الويب لتجنب الهندسة الخاصة بالمهام. في هذا العمل، نقترح إطارًا لمهام فهم المشاهد الديناميكية من خلال الاستفادة من المعرفة المستمدة من تمثيلات الرؤية-اللغة الحديثة والمجمدة. بوضع هذه المهام بطريقة عامة - كتنبؤ وتحليل النص الهيكلي، أو عن طريق ضم التمثيلات مباشرة إلى مدخلات النماذج الموجودة - نحقق أفضل النتائج الحالية باستخدام عدد قليل جدًا من المعلمات القابلة للتدريب مقارنة بالأساليب الحالية. بالإضافة إلى ذلك، يظهر تحليلنا للمعرفة الديناميكية لهذه التمثيلات أن التمثيلات الأكثر قوة حديثاً تقوم بتشفير معاني المشاهد الديناميكية بشكل فعال، مما يجعل هذا الأسلوب ممكنًا حديثاً.

فهم المشاهد الديناميكية من تمثيلات الرؤية واللغة | أحدث الأوراق البحثية | HyperAI