HyperAIHyperAI

Command Palette

Search for a command to run...

التحيّز كإنسان: إطار معرفي للتحيّز في توليد رسومات المشهد

Xiaoguang Chang Teng Wang Changyin Sun Wenzhe Cai

الملخص

إن توليد رسم المشهد هو مهمة معقدة لأنها لا تتبع نمطًا محددًا للتعرف (مثلاً، لا يوجد فرق بارز بين عبارتي "يحدق في" و"قريب من" من حيث الرؤية، في حين يمكن أن تظهر عبارة "قريب من" بين كيانات ذات تشريح مختلف). ولهذا السبب، يُعاني بعض مناهج توليد رسم المشهد من التنبؤات المتكررة للعلاقات الشائعة ناتجة عن السمات البصرية العشوائية وتعليقات البيانات المُبسطة. ولهذا السبب، ركّزت الدراسات الحديثة على مناهج "المحايدة" (unbiased) لموازنة التنبؤات وتحسين جودة رسم المشهد بشكل أكثر إفادة. ومع ذلك، ينبغي أن نُنسب قدرة الإنسان على إصدار أحكام سريعة ودقيقة حول العلاقات بين كثرة الكيانات إلى "التحيّز" (أي الخبرة والمعرفة اللغوية) وليس إلى الرؤية البحتة. ولتعزيز قدرة النموذج، مستلهمين آلية "التحيّز المعرفي"، نقترح إطارًا جديدًا يعتمد على ثلاث نماذج (3-paradigms)، يُحاكي كيف يدمج البشر السمات اللغوية للوسوم كمرشِد لتمثيلات قائمة على الرؤية، بهدف استكشاف أنماط العلاقات المخفية بشكل أفضل وتقليل تأثير الانتشار الضوضائي للبيانات البصرية. يتميز إطارنا بأنه غير مرتبط بنموذج معين لرسم المشهد، أي أنه متوافق مع أي نموذج لرسم المشهد. وثبت من خلال تجارب شاملة أن إطارنا يتفوق على الوحدات الأساسية في عدة مقاييس، مع زيادة ضئيلة جدًا في عدد المعاملات، ويحقق أداءً قياسيًا جديدًا (SOTA) على مجموعة بيانات Visual Genome.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp