HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة التفكيك الانعكاسي لوصف الصور

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai

الملخص

تركز أحدث طرق تسمية الصور في الغالب على تحسين الخصائص البصرية، بينما لم يُولَ اهتمام كافٍ لاستخدام الخصائص الذاتية للغة لتعزيز أداء التسمية. في هذا البحث، نوضح أن التماسك اللفظي بين الكلمات ونظام الجملة النحوي مهم أيضًا لإنتاج صور ذات جودة عالية مع تسميات مناسبة. وفقًا للإطار التقليدي للمشفر-المفكك (encoder-decoder)، نقترح شبكة فك التشفير الانعكاسية (Reflective Decoding Network - RDN) لتسمية الصور، والتي تعزز الارتباط الطويل بين الكلمات وإدراك المواقع في مفكك التسميات. يتعلم نموذجنا التعاون في التركيز على الخصائص البصرية والنصية في الوقت نفسه، وإدراك موقع كل كلمة نسبيًا في الجملة لتحقيق أقصى قدر من المعلومات التي يتم تسليمها في التسمية المولدة. نقيم فعالية شبكتنا الانعكاسية لفك التشفير (RDN) على مجموعات بيانات تسمية الصور COCO ونحقق أداءً أفضل من الطرق السابقة. تكشف التجارب الإضافية أن نهجنا له ميزة خاصة في الحالات الصعبة التي تتضمن مشاهد معقدة يجب وصفها بالتسميات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp