HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيلات عميقة للوصف البصري الدقيق

Scott Reed Zeynep Akata Honglak Lee Bernt Schiele

الملخص

طرق الرصد البصري بدون أمثلة مسبقة المتطورة حاليًا تشكل التعلم كمشكلة تمثيل مشترك للصور والمعلومات الجانبية. في هذه الصياغات، يعتبر السمات (الخصائص) أفضل مكمل حاليًا للميزات البصرية: متجهات مرمزة يدويًا تصف الخصائص المشتركة بين الفئات. رغم الأداء الجيد، فإن للسمات قيود: (1) التعرف الدقيق يتطلب عددًا أكبر من السمات بشكل متوازي، و(2) السمات لا توفر واجهة لغوية طبيعية. نقترح التغلب على هذه القيود من خلال تدريب نماذج اللغة العصبية من الصفر؛ أي دون تدريب مسبق واستهلاك الكلمات والحروف فقط. النماذج المقترحة لدينا يتم تدريبها بشكل شامل لتوافق مع المحتوى الدقيق والفئة المحددة للصور. اللغة الطبيعية توفر طريقة مرنة وموجزة لترميز الجوانب البصرية البارزة فقط التي تميز بين الفئات. بتدريب النموذج على النصوص الخام، يمكن للنموذج أيضًا إجراء الاستدلال على النصوص الخام، مما يوفر للبشر وسيلة مألوفة لكل من الإشارة والتجميع. نموذجنا حقق أداءً قويًا في استرجاع الصور القائم على النص بدون أمثلة مسبقة وأظهر تفوقًا كبيرًا على أفضل التقنيات القائمة على السمات في تصنيف الصور بدون أمثلة مسبقة على مجموعة بيانات Caltech UCSD Birds 200-2011.请注意,这里“Caltech UCSD Birds 200-2011”是一个特定的数据集名称,因此在阿拉伯语中保留了其英文形式。其他术语如“zero-shot visual recognition”(رصد بصري بدون أمثلة مسبقة)、"neural language models"(نماذج اللغة العصبية)等也采用了通用的阿拉伯语译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp