HyperAIHyperAI

Command Palette

Search for a command to run...

إطلاق رسم بياني للسياق التعبيري باستخدام دمج المعرفة البديهية للفهم البصري والاستنتاج

Edward John G.; Curry M. Jaleed; Breslin Khan

الملخص

تهدف توليد رسم المشهد إلى استكشاف العناصر الدلالية في الصور من خلال نمذجة الكائنات والعلاقات بينها بطريقة منظمة، وهي عناصر ضرورية لمهام الفهم والاستدلال البصري، بما في ذلك وصف الصور، والإجابة على الأسئلة البصرية، ومعالجة الأحداث متعددة الوسائط، وسرد القصص البصرية، واسترجاع الصور. تقدم الطرق الحالية لتوليد رسم المشهد أداءً محدودًا وتعبيرًا محدودًا فيما يتعلق بالفهم والاستدلال البصري على المستوى الأعلى. ويمكن تقليل هذه التحديات من خلال الاستفادة من المعرفة المشتركة (commonsense knowledge)، مثل الحقائق المرتبطة والمعرفة الخلفية، المتعلقة بالعناصر الدلالية في رسم المشهد. في هذه الورقة، نقترح دمج معرفة مشتركة متنوعة حول العناصر الدلالية في رسم المشهد، بهدف إنتاج رسومات مشهد غنية وتعبيرية باستخدام مصدر معرفي غير متجانس يحتوي على معرفة مشتركة تم جمعها من سبعة مصادر معرفية مختلفة. وتُستخدم تمثيلات الرسوم (graph embeddings) لعُقد الكائنات للاستفادة من أنماطها الهيكلية في المصدر المعرفي لحساب مقاييس التشابه، وذلك لتحسين وتطوير رسم المشهد. أجرينا تحليلًا تجريبيًا ومقارنًا على مجموعة بيانات Visual Genome القياسية، حيث حقق الأسلوب المقترح معدل استدعاء أعلى (R@K = 29.89، 35.4، 39.12 عند K = 20، 50، 100) مقارنةً بالتقنية الرائدة الحالية (R@K = 25.8، 33.3، 37.8 عند K = 20، 50، 100). أظهرت النتائج الكمية للأسلوب المقترح في مهمة لاحقة تتعلق بإنشاء الصور أن الصور الواقعية تُولّد بشكل أفضل باستخدام رسومات مشهد تعتمد على المعرفة المشتركة. تُبرز هذه النتائج فعالية دمج المعرفة المشتركة في تحسين الأداء والتعبير في توليد رسم المشهد، لصالح مهام الفهم والاستدلال البصري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إطلاق رسم بياني للسياق التعبيري باستخدام دمج المعرفة البديهية للفهم البصري والاستنتاج | مستندات | HyperAI