HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل الشكلي المعتمد على اللغة

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

الملخص

نقدّم نموذج LSeg، وهو نموذج جديد للتصنيف الدلالي للصور الموجه باللغة. يستخدم LSeg معالج نصي لحساب تمثيلات ( embeddings ) للوسوم الوصفية المدخلة (مثل "عشب" أو "مبنى")، إلى جانب معالج صور يستند إلى التحويل (Transformer) يحسب تمثيلات كثيفة لكل بكسل في الصورة المدخلة. يتم تدريب معالج الصور باستخدام هدف تبايني (contrastive objective) لمحاذاة تمثيلات البكسل مع تمثيل النص الخاص بالفئة الدلالية المقابلة. توفر تمثيلات النص تمثيلًا مرناً للوسوم، حيث تُمثّل الوسوم ذات الدلالة المشابهة مناطق متشابهة في فضاء التمثيل (مثلاً: "قط" و"شعري"). هذا يمكّن LSeg من التعميم على فئات لم تُرَ من قبل أثناء الاختبار، دون الحاجة إلى إعادة التدريب أو حتى احتياج عينة تدريب إضافية واحدة. نُظهر أن نهجنا يحقق أداءً متميزًا للغاية في الوضع الصفري (zero-shot) مقارنةً بالطرق الحالية للتصنيف الدلالي في الوضع الصفري أو القليل من الأمثلة (few-shot)، بل ويُوازي دقة الخوارزميات التقليدية للتصنيف الدلالي عند توفر مجموعة وسوم ثابتة. يمكن الوصول إلى الكود والعرض التوضيحي من خلال الرابط: https://github.com/isl-org/lang-seg.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحليل الشكلي المعتمد على اللغة | مستندات | HyperAI