منذ 7 أشهر

الملخص

طرق الرصد البصري بدون أمثلة مسبقة المتطورة حاليًا تشكل التعلم كمشكلة تمثيل مشترك للصور والمعلومات الجانبية. في هذه الصياغات، يعتبر السمات (الخصائص) أفضل مكمل حاليًا للميزات البصرية: متجهات مرمزة يدويًا تصف الخصائص المشتركة بين الفئات. رغم الأداء الجيد، فإن للسمات قيود: (1) التعرف الدقيق يتطلب عددًا أكبر من السمات بشكل متوازي، و(2) السمات لا توفر واجهة لغوية طبيعية. نقترح التغلب على هذه القيود من خلال تدريب نماذج اللغة العصبية من الصفر؛ أي دون تدريب مسبق واستهلاك الكلمات والحروف فقط. النماذج المقترحة لدينا يتم تدريبها بشكل شامل لتوافق مع المحتوى الدقيق والفئة المحددة للصور. اللغة الطبيعية توفر طريقة مرنة وموجزة لترميز الجوانب البصرية البارزة فقط التي تميز بين الفئات. بتدريب النموذج على النصوص الخام، يمكن للنموذج أيضًا إجراء الاستدلال على النصوص الخام، مما يوفر للبشر وسيلة مألوفة لكل من الإشارة والتجميع. نموذجنا حقق أداءً قويًا في استرجاع الصور القائم على النص بدون أمثلة مسبقة وأظهر تفوقًا كبيرًا على أفضل التقنيات القائمة على السمات في تصنيف الصور بدون أمثلة مسبقة على مجموعة بيانات Caltech UCSD Birds 200-2011.请注意，这里“Caltech UCSD Birds 200-2011”是一个特定的数据集名称，因此在阿拉伯语中保留了其英文形式。其他术语如“zero-shot visual recognition”（رصد بصري بدون أمثلة مسبقة）、"neural language models"（نماذج اللغة العصبية）等也采用了通用的阿拉伯语译法。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار