HyperAIHyperAI
منذ 17 أيام

تقرير تقني عن Qwen2.5-VL

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
تقرير تقني عن Qwen2.5-VL
الملخص

نُقدّم نموذج Qwen2.5-VL، أحدث نموذج رائد في سلسلة Qwen للرؤية واللغة، والذي يُظهر تقدّمًا كبيرًا في القدرات الأساسية والوظائف المبتكرة. يحقّق Qwen2.5-VL قفزة كبيرة في فهم التفاعل مع العالم من خلال تحسين القدرة على التعرف البصري، وتوصيف الكائنات بدقة، وتحليل المستندات بشكل قوي، وفهم الفيديوهات الطويلة. من أبرز ميزات Qwen2.5-VL قدرته على تحديد مواقع الكائنات بدقة باستخدام مربعات حدودية أو نقاط. كما يوفّر استخراج بيانات منظّمة قوية من الفواتير والصفحات والجداول، بالإضافة إلى تحليل مفصل للرسوم البيانية والرسوم التوضيحية والتخطيطات. ولمعالجة المدخلات المعقدة، يقدّم Qwen2.5-VL تقنية معالجة ديناميكية للدقة، وترميزًا زمنيًا مطلقًا، ما يمكّنه من معالجة صور بمقاييس مختلفة ومقاطع فيديو طويلة (تصل إلى ساعات) مع تحديد الأحداث بدقة ثانية واحدة. هذا يسمح للنموذج بفهم مقياس المساحة والديناميكية الزمنية بشكل طبيعي، دون الاعتماد على تقنيات التطبيع التقليدية. وبتدريب نموذج Vision Transformer (ViT) ديناميكيًا مدمجًا من الصفر، مع دمج تقنية Window Attention، تم تقليل الحمل الحسابي مع الحفاظ على الدقة الأصلية. ونتيجة لذلك، يبرز Qwen2.5-VL ليس فقط في فهم الصور الثابتة والمستندات، بل أيضًا كوكيل بصري تفاعلي قادر على التفكير، واستخدام الأدوات، وتنفيذ المهام في سياقات واقعية مثل تشغيل الحواسيب والأجهزة المحمولة. يتوفر Qwen2.5-VL بثلاثة أحجام مختلفة، لتلبية مجموعة متنوعة من الحالات الاستخدامية، بدءًا من الذكاء الاصطناعي على الحافة وحتى الحوسبة عالية الأداء. ويُعدّ النموذج الرائد Qwen2.5-VL-72B مُنافسًا للنماذج الرائدة مثل GPT-4o وClaude 3.5 Sonnet، خاصةً في فهم المستندات والرسوم التوضيحية. علاوةً على ذلك، يحافظ Qwen2.5-VL على أداء لغوي قوي، مع الحفاظ على الكفاءات اللغوية الأساسية للنموذج اللغوي Qwen2.5.

تقرير تقني عن Qwen2.5-VL | أحدث الأوراق البحثية | HyperAI