HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج اللغة المرئي (VLM)

Date

منذ يوم واحد

نموذج اللغة المرئية (VLM) هو نموذج ذكاء اصطناعي قادر على فهم ومعالجة المعلومات النصية والصورية في آن واحد. يستطيع هذا النموذج أداء مهام معقدة مثل وصف الصور، والإجابة على الأسئلة المرئية، واسترجاع النصوص من الصور، ويُستخدم على نطاق واسع في تحليل المحتوى، والمساعدين الأذكياء، والروبوتات، وغيرها من المجالات.

تتبع بنية VLM النموذجية تدفقًا واضحًا لمعالجة المعلومات من ثلاث طبقات: يقوم المشفر المرئي (مثل ViT) بتحويل الصورة المدخلة إلى متجه ميزات مرئية مجردة، وتقوم طبقة الإسقاط (مثل الطبقة الخطية أو Q-Former) بمحاذاة هذه الميزات المرئية مع الفضاء الدلالي لنموذج اللغة، ويتلقى نموذج اللغة الكبير هذه الميزات المحاذية وتعليمات النص لإجراء فهم موحد واستدلال وتوليد محتوى.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp