1. مقدمة البرنامج التعليمي

يُعدّ FastVLM، الذي أطلقته شركة Apple في سبتمبر 2025، نموذجًا لغويًا مرئيًا عالي الأداء (VLM) يُحسّن كفاءة وأداء معالجة الصور عالية الدقة. يُقدّم هذا النموذج مُشفّر FastViTHD الهجين الجديد، مما يُقلّل بشكلٍ فعّال عدد الرموز المرئية ويُخفّض وقت التشفير بشكلٍ ملحوظ. مع الحفاظ على أداء مُشابه لنماذج VLM الحالية، يُحسّن FastVLM سرعة المعالجة بشكلٍ كبير؛ فعلى سبيل المثال، في إعداد LLaVA-1.5، يُقلّل وقت توليد أول رمز (TTFT) بمقدار 3.2 مرة مُقارنةً بالنماذج الأخرى. يُقدّم FastVLM أداءً ممتازًا على مُختلف معايير VLM، ويتميز بحجم نموذج أصغر ويتطلب بيانات تدريب أقل، مما يُبرهن على كفاءته وجدواه في مهام الفهم مُتعدد الوسائط. تتوفر أوراق بحثية ذات صلة. FastVLM: ترميز رؤية فعال لنماذج لغة الرؤيةتم إدراجه في مؤتمر CVPR 2025.

يقدم المشروع نموذجين من النماذج:

فاست في إل إم-0.5 بي

فاست في إل إم-7 بي

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@InProceedings{fastvlm2025, author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari}, title = {FastVLM: Efficient Vision Encoding for Vision Language Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2025}, }

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 5 أشهر

الحجم

501.81 MB

الوسوم

وصف الصورة

فهم الصور

الترخيص

Other

GitHub

apple/ml-fastvlm

رابط الورقة البحثية

2412.13303

1. مقدمة البرنامج التعليمي

يقدم المشروع نموذجين من النماذج:

فاست في إل إم-0.5 بي
فاست في إل إم-7 بي

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

4. المناقشة

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 5 أشهر

الحجم

501.81 MB

الوسوم

وصف الصورة

فهم الصور

الترخيص

Other

GitHub

apple/ml-fastvlm

رابط الورقة البحثية

2412.13303

1. مقدمة البرنامج التعليمي

يقدم المشروع نموذجين من النماذج:

فاست في إل إم-0.5 بي
فاست في إل إم-7 بي

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

4. المناقشة

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

منذ شهر واحد

MAGE: مولد جينات الأجسام المضادة وحيدة النسيلة

منذ 2 أشهر

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

منذ 3 أشهر

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

منذ 22 أيام

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

FastVLM: نموذج لغة بصرية سريع للغاية

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

4. المناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FastVLM: نموذج لغة بصرية سريع للغاية

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

MAGE: مولد جينات الأجسام المضادة وحيدة النسيلة

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FastVLM: نموذج لغة بصرية سريع للغاية

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

MAGE: مولد جينات الأجسام المضادة وحيدة النسيلة

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

MAGE: مولد جينات الأجسام المضادة وحيدة النسيلة

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

ذات صلة دفاتر تفاعلية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

MAGE: مولد جينات الأجسام المضادة وحيدة النسيلة

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

فارا-7ب: نموذج وكيل ذكي عالي الكفاءة قائم على الويب

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي