FastVLM: نموذج لغة بصرية سريع للغاية
1. مقدمة البرنامج التعليمي

FastVLM هو نموذج لغة بصرية فعّال (VLM) أطلقه فريق Apple في سبتمبر 2025، ويُحسّن كفاءة وأداء معالجة الصور عالية الدقة. يُقدّم هذا النموذج مُشفّر اللغة البصرية الهجين الجديد FastViTHD، الذي يُقلّل عدد الرموز البصرية بشكل فعّال ويُقلّل وقت التشفير بشكل كبير. مع الحفاظ على أداء مُشابه لنماذج VLM الحالية، يُحسّن FastVLM سرعة المعالجة بشكل كبير. على سبيل المثال، في إعداد LLaVA-1.5، يُقلّل زمن توليد الرمز الأول (TTFT) بمقدار 3.2 مرة مُقارنةً بالنماذج الأخرى. يُظهر FastVLM أداءً جيدًا في مُختلف مُعايير VLM، كما أن حجم النموذج أصغر ومتطلبات بيانات التدريب أقل، مما يُظهر كفاءةً عاليةً وفعاليةً في مهام الفهم مُتعدد الوسائط. نتائج البحث ذات الصلة هي:FastVLM: ترميز رؤية فعال لنماذج لغة الرؤية"، والتي تم تضمينها في CVPR 2025.
يقدم المشروع نموذجين من النماذج:
- فاست في إل إم-0.5 بي
- فاست في إل إم-7 بي
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@InProceedings{fastvlm2025,
author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2025},
}