مقدمة النموذج

Phi-3.5-vision-instruct هو نموذج متعدد الوسائط في سلسلة Phi-3.5 التي أصدرتها Microsoft، وهو مصمم للتطبيقات التي تعالج النص والإدخال المرئي. يدعم النموذج طول سياق يبلغ 128 كيلو بايت وخضع لعملية ضبط وتحسين دقيقة، مما يجعله مناسبًا للاستخدام على نطاق واسع في المجالات التجارية والبحثية في البيئات ذات الذاكرة المحدودة أو موارد الحوسبة ومتطلبات زمن الوصول المنخفض العالية. يتمتع نموذج Phi-3.5-vision-instruct بقدرات واسعة مثل فهم الصور والتعرف الضوئي على الحروف (OCR) وتحليل المخططات والجداول وتلخيص الصور المتعددة أو مقاطع الفيديو، مما يجعله مناسبًا لمجموعة متنوعة من التطبيقات التي تعتمد على الذكاء الاصطناعي. أثبت مكاسب كبيرة في الأداء في المعايير المتعلقة بمعالجة الصور والفيديو. يتكون نموذج الهندسة المعمارية من نظام مكون من 4.2 مليار معلمة يدمج مشفر الصورة والموصل وجهاز العرض ونموذج لغة Phi-3 Mini. تم استخدام 256 وحدة معالجة رسومية من نوع NVIDIA A100-80G في التدريب، واستغرق إكماله 6 أيام، وتضمنت بيانات التدريب 500 مليار رمز (مرئي ونصي).

حصل نموذج Phi-3.5-vision-instruct على درجة 43.0 في فهم الصور المتعددة الوسائط (MMMU)، مما يدل على قدراته المحسنة في التعامل مع مهام فهم الصور المعقدة. بالإضافة إلى ذلك، يتم تدريب النموذج باستخدام بيانات تعليمية عالية الجودة، وبيانات اصطناعية، ووثائق عامة تم فحصها بدقة لضمان جودة البيانات والخصوصية.

يمكن البدء بهذا البرنامج التعليمي باستخدام بطاقة 4090 واحدة.

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ عام واحد

الحجم

781.92 MB

الوسوم

فهم الصور

متعدد الوسائط

مايكروسوفت

مقدمة النموذج

يمكن البدء بهذا البرنامج التعليمي باستخدام بطاقة 4090 واحدة.

كيفية الركض

1. 克隆并成功启动容器后，等待约 10s，将鼠标悬浮在「API 地址」处，拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片，选择模型，并输入问题，点击 Submit

4. 生成结果

التبادل والمناقشة

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

مقدمة النموذج

يمكن البدء بهذا البرنامج التعليمي باستخدام بطاقة 4090 واحدة.

التبادل والمناقشة

Command Palette

نشر Phi-3.5-vision-instruct بنقرة واحدة

مقدمة النموذج

كيفية الركض

التبادل والمناقشة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشر Phi-3.5-vision-instruct بنقرة واحدة

مقدمة النموذج

كيفية الركض

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

نشر Ministry-3-14B-Instruct بنقرة واحدة

شاندرا: تقنية التعرف الضوئي على الأحرف عالية الدقة للوثائق

llama.cpp+openwebui Deploys Qwen3-VL-8B-Instruct-GGUF

نشر DeepSeek-R1-70B بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشر Phi-3.5-vision-instruct بنقرة واحدة

مقدمة النموذج

كيفية الركض

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

نشر Ministry-3-14B-Instruct بنقرة واحدة

شاندرا: تقنية التعرف الضوئي على الأحرف عالية الدقة للوثائق

llama.cpp+openwebui Deploys Qwen3-VL-8B-Instruct-GGUF

نشر DeepSeek-R1-70B بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

نشر Ministry-3-14B-Instruct بنقرة واحدة

شاندرا: تقنية التعرف الضوئي على الأحرف عالية الدقة للوثائق

llama.cpp+openwebui Deploys Qwen3-VL-8B-Instruct-GGUF

نشر DeepSeek-R1-70B بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

ذات صلة دفاتر تفاعلية

نشر Ministry-3-14B-Instruct بنقرة واحدة

شاندرا: تقنية التعرف الضوئي على الأحرف عالية الدقة للوثائق

llama.cpp+openwebui Deploys Qwen3-VL-8B-Instruct-GGUF

نشر DeepSeek-R1-70B بنقرة واحدة

نشر نموذج الاستدلال الطبي MedGemma-27b-text-it بنقرة واحدة

نشر نموذج SmolLM3-3B بنقرة واحدة

نشر Qwen-Image-Lightning بنقرة واحدة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

PaddleOCR-VL: تحليل المستندات متعدد الوسائط