HyperAIHyperAI

Command Palette

Search for a command to run...

جريت: تحسين التوصيف الصوتي للصور باستخدام نموذج الترانسفورمر بشكل أسرع وأفضل من خلال استخدام ميزتين بصريتين مزدوجتين

Van-Quang Nguyen Masanori Suganuma Takayuki Okatani

الملخص

الأساليب الحالية الرائدة في وصف الصور تستخدم ميزات قائمة على المناطق، نظرًا لتقديمها معلومات على مستوى الكائنات، وهي ضرورية لوصف محتوى الصور؛ وتُستخرج هذه الميزات عادةً باستخدام كاشف كائنات مثل Faster R-CNN. ومع ذلك، تواجه هذه الأساليب عدة مشكلات، مثل نقص المعلومات السياقية، وخطر الكشف غير الدقيق، والتكلفة الحسابية العالية. يمكن التغلب على المشكلتين الأولى والثانية من خلال إضافة ميزات قائمة على الشبكة. لكن لا تزال هناك مسألة غير مُحَلّة حول كيفية استخراج هذه الميزات من نوعين مختلفين ودمجها معًا. تُقدّم هذه الورقة بنية عصبية قائمة بالكامل على مُحَوِّلات (Transformer-only)، وتُسمى GRIT (Transformer لوصف الصور القائمة على الشبكة والمناطق)، التي تُستخدم بشكل فعّال في استغلال النوعين من الميزات البصرية لتحسين جودة النصوص الوصفيّة. تقوم GRIT باستبدال كاشف الشبكة العصبية التقليدي القائم على CNN المستخدم في الطرق السابقة بكاشف مستند إلى DETR، مما يجعلها أسرع من حيث الحسابات. علاوةً على ذلك، فإن تصميمها المتكامل الذي يعتمد فقط على المحولات يمكّن من تدريب النموذج بشكل منتهٍ (end-to-end). ويؤدي هذا التصميم المبتكر، إلى جانب دمج الميزات البصرية المزدوجة، إلى تحسين كبير في الأداء. وتُظهر النتائج التجريبية على عدة معايير لوصف الصور أن GRIT تتفوّق على الطرق السابقة من حيث دقة الاستنتاج وسرعة الأداء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp