Command Palette
Search for a command to run...
تقرير فني لـ Qwen2.5-VL
تقرير فني لـ Qwen2.5-VL
الملخص
نُقدِّم نموذج Qwen2.5-VL، أحدث نموذج رائد في سلسلة Qwen للذكاء الاصطناعي البصري-اللغوي، الذي يُظهر تقدماً ملحوظاً في القدرات الأساسية والوظائف الابتكارية. يُحقِّق Qwen2.5-VL تقدماً كبيراً في فهم التفاعل مع العالم من خلال تحسين القدرة على التعرف البصري، وتحديد موقع الكائنات بدقة، وتحليل المستندات بقوة، وفهم الفيديوهات الطويلة. وتميّز Qwen2.5-VL بقدرته الفريدة على تحديد مواقع الكائنات باستخدام مربعات محيطة (Bounding Boxes) أو نقاط دقيقة. كما يُقدِّم نموذجاً قوياً لاستخراج البيانات الهيكلية من الفواتير والنموذجات والجداول، فضلاً عن تحليل مفصل للرسوم البيانية والخرائط التوضيحية والتصميمات المعمارية. ولمعالجة المدخلات المعقدة، أدخل Qwen2.5-VL تقنيتي معالجة الدقة الديناميكية (Dynamic Resolution Processing) وترميز الزمن المطلق (Absolute Time Encoding)، ما يمكّنه من معالجة صور بمقاييس مختلفة ومقاطع فيديو طويلة الأمد (تصل إلى ساعات) مع تحديد أحداث دقيقة على مستوى الثانية. وبهذا، يُدرك النموذج مقياس الفضاء والديناميات الزمنية بشكل طبيعي، دون الاعتماد على تقنيات التطبيع التقليدية. وبتدريب نموذج "مُحول البصريات الديناميكية" (Vision Transformer) ذي دقة أصلية من الصفر، ودمج تقنية "الانتباه النافذة" (Window Attention)، نُقلل من الحمل الحسابي مع الحفاظ على الدقة الأصلية. ونتيجة لذلك، يُبرز Qwen2.5-VL تميّزه ليس فقط في فهم الصور الثابتة والمستندات، بل كوكيل بصري تفاعلي قادر على التفكير، واستخدام الأدوات، وتنفيذ المهام في سيناريوهات واقعية، مثل تشغيل الحواسيب والأجهزة المحمولة. يُقدَّم Qwen2.5-VL بثلاثة أحجام مختلفة، ليناسب استخدامات متنوعة تبدأ من الذكاء الاصطناعي على الحافة (Edge AI) وتمتد إلى الحوسبة عالية الأداء. ويُعدّ النموذج الرئيسي Qwen2.5-VL-72B مُنافساً ندّياً للنماذج الرائدة مثل GPT-4o وClaude 3.5 Sonnet، خصوصاً في فهم المستندات والرسوم التوضيحية. علاوةً على ذلك، يُبقي Qwen2.5-VL أداءً لغوياً قوياً، مع الحفاظ على الكفاءات اللغوية الأساسية المميزة لنموذج Qwen2.5 LLM.