إطلاق رسم بياني للسياق التعبيري باستخدام دمج المعرفة البديهية للفهم البصري والاستنتاج
تهدف توليد رسم المشهد إلى استكشاف العناصر الدلالية في الصور من خلال نمذجة الكائنات والعلاقات بينها بطريقة منظمة، وهي عناصر ضرورية لمهام الفهم والاستدلال البصري، بما في ذلك وصف الصور، والإجابة على الأسئلة البصرية، ومعالجة الأحداث متعددة الوسائط، وسرد القصص البصرية، واسترجاع الصور. تقدم الطرق الحالية لتوليد رسم المشهد أداءً محدودًا وتعبيرًا محدودًا فيما يتعلق بالفهم والاستدلال البصري على المستوى الأعلى. ويمكن تقليل هذه التحديات من خلال الاستفادة من المعرفة المشتركة (commonsense knowledge)، مثل الحقائق المرتبطة والمعرفة الخلفية، المتعلقة بالعناصر الدلالية في رسم المشهد. في هذه الورقة، نقترح دمج معرفة مشتركة متنوعة حول العناصر الدلالية في رسم المشهد، بهدف إنتاج رسومات مشهد غنية وتعبيرية باستخدام مصدر معرفي غير متجانس يحتوي على معرفة مشتركة تم جمعها من سبعة مصادر معرفية مختلفة. وتُستخدم تمثيلات الرسوم (graph embeddings) لعُقد الكائنات للاستفادة من أنماطها الهيكلية في المصدر المعرفي لحساب مقاييس التشابه، وذلك لتحسين وتطوير رسم المشهد. أجرينا تحليلًا تجريبيًا ومقارنًا على مجموعة بيانات Visual Genome القياسية، حيث حقق الأسلوب المقترح معدل استدعاء أعلى (R@K = 29.89، 35.4، 39.12 عند K = 20، 50، 100) مقارنةً بالتقنية الرائدة الحالية (R@K = 25.8، 33.3، 37.8 عند K = 20، 50، 100). أظهرت النتائج الكمية للأسلوب المقترح في مهمة لاحقة تتعلق بإنشاء الصور أن الصور الواقعية تُولّد بشكل أفضل باستخدام رسومات مشهد تعتمد على المعرفة المشتركة. تُبرز هذه النتائج فعالية دمج المعرفة المشتركة في تحسين الأداء والتعبير في توليد رسم المشهد، لصالح مهام الفهم والاستدلال البصري.