Command Palette
Search for a command to run...
نموذج اللغة المرئي (VLM)
التاريخ
الوسوم
نموذج اللغة المرئية (VLM) هو نموذج ذكاء اصطناعي قادر على فهم ومعالجة المعلومات النصية والصورية في آن واحد. يستطيع هذا النموذج أداء مهام معقدة مثل وصف الصور، والإجابة على الأسئلة المرئية، واسترجاع النصوص من الصور، ويُستخدم على نطاق واسع في تحليل المحتوى، والمساعدين الأذكياء، والروبوتات، وغيرها من المجالات.
تتبع بنية VLM النموذجية تدفقًا واضحًا لمعالجة المعلومات من ثلاث طبقات: يقوم المشفر المرئي (مثل ViT) بتحويل الصورة المدخلة إلى متجه ميزات مرئية مجردة، وتقوم طبقة الإسقاط (مثل الطبقة الخطية أو Q-Former) بمحاذاة هذه الميزات المرئية مع الفضاء الدلالي لنموذج اللغة، ويتلقى نموذج اللغة الكبير هذه الميزات المحاذية وتعليمات النص لإجراء فهم موحد واستدلال وتوليد محتوى.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.