Command Palette
Search for a command to run...
نموذج اللغة المرئي (VLM)
Date
Tags
نموذج اللغة المرئية (VLM) هو نموذج ذكاء اصطناعي قادر على فهم ومعالجة المعلومات النصية والصورية في آن واحد. يستطيع هذا النموذج أداء مهام معقدة مثل وصف الصور، والإجابة على الأسئلة المرئية، واسترجاع النصوص من الصور، ويُستخدم على نطاق واسع في تحليل المحتوى، والمساعدين الأذكياء، والروبوتات، وغيرها من المجالات.
تتبع بنية VLM النموذجية تدفقًا واضحًا لمعالجة المعلومات من ثلاث طبقات: يقوم المشفر المرئي (مثل ViT) بتحويل الصورة المدخلة إلى متجه ميزات مرئية مجردة، وتقوم طبقة الإسقاط (مثل الطبقة الخطية أو Q-Former) بمحاذاة هذه الميزات المرئية مع الفضاء الدلالي لنموذج اللغة، ويتلقى نموذج اللغة الكبير هذه الميزات المحاذية وتعليمات النص لإجراء فهم موحد واستدلال وتوليد محتوى.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.