HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة بناء العبارات النصية في الصور

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

الملخص

تثبيت (أي تحديد المواقع) للعبارات النصية الحرة والعشوائية في المحتوى البصري هو مشكلة صعبة ذات تطبيقات عديدة في التفاعل بين الإنسان والحاسوب وحل الإشارة بين الصورة والنص. قلة من القواعد البيانات توفر تثبيتًا صحيحًا للمواقع، لذا من المرغوب تعلم ذلك من بيانات بدون إشراف أو بإشراف قليل. نقترح نهجًا جديدًا يتعلم التثبيت بإعادة بناء العبارة المعطاة باستخدام آلية الانتباه، والتي يمكن أن تكون مخفية أو محسّنة مباشرة. أثناء التدريب، يقوم نهجنا بترميز العبارة باستخدام نموذج لغوي شبكي متكرر ثم يتعلم التركيز على المنطقة البصرية ذات الصلة لإعادة بناء العبارة المدخلة. في وقت الاختبار، يتم تقييم الانتباه الصحيح، أي التثبيت. إذا كان الإشراف بالتثبيت متاحًا، فيمكن تطبيقه مباشرة عبر خسارة على آلية الانتباه. نظهر فعالية نهجنا على قاعدة بيانات Flickr 30k Entities وReferItGame مع مستويات مختلفة من الإشراف، تتراوح من عدم وجود إشراف إلى الإشراف الجزئي والكامل. يحقق النموذج المشرف لدينا تحسنًا كبيرًا على الحالة السابقة للتقنية في كلتا القاعدتين البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp