نشر Phi-3.5-vision-instruct بنقرة واحدة
مقدمة النموذج
Phi-3.5-vision-instruct هو نموذج متعدد الوسائط في سلسلة Phi-3.5 التي أصدرتها Microsoft، وهو مصمم للتطبيقات التي تعالج النص والإدخال المرئي. يدعم النموذج طول سياق يبلغ 128 كيلو بايت وخضع لعملية ضبط وتحسين دقيقة، مما يجعله مناسبًا للاستخدام على نطاق واسع في المجالات التجارية والبحثية في البيئات ذات الذاكرة المحدودة أو موارد الحوسبة ومتطلبات زمن الوصول المنخفض العالية. يتمتع نموذج Phi-3.5-vision-instruct بقدرات واسعة مثل فهم الصور والتعرف الضوئي على الحروف (OCR) وتحليل المخططات والجداول وتلخيص الصور المتعددة أو مقاطع الفيديو، مما يجعله مناسبًا لمجموعة متنوعة من التطبيقات التي تعتمد على الذكاء الاصطناعي. أثبت مكاسب كبيرة في الأداء في المعايير المتعلقة بمعالجة الصور والفيديو. يتكون نموذج الهندسة المعمارية من نظام مكون من 4.2 مليار معلمة يدمج مشفر الصورة والموصل وجهاز العرض ونموذج لغة Phi-3 Mini. تم استخدام 256 وحدة معالجة رسومية من نوع NVIDIA A100-80G في التدريب، واستغرق إكماله 6 أيام، وتضمنت بيانات التدريب 500 مليار رمز (مرئي ونصي).
حصل نموذج Phi-3.5-vision-instruct على درجة 43.0 في فهم الصور المتعددة الوسائط (MMMU)، مما يدل على قدراته المحسنة في التعامل مع مهام فهم الصور المعقدة. بالإضافة إلى ذلك، يتم تدريب النموذج باستخدام بيانات تعليمية عالية الجودة، وبيانات اصطناعية، ووثائق عامة تم فحصها بدقة لضمان جودة البيانات والخصوصية.
يمكن البدء بهذا البرنامج التعليمي باستخدام بطاقة 4090 واحدة.
كيفية الركض
1. 克隆并成功启动容器后,等待约 10s,将鼠标悬浮在「API 地址」处,拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片,选择模型,并输入问题,点击 Submit

4. 生成结果

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓