HyperAIHyperAI

Command Palette

Search for a command to run...

كيف تستخدم نماذج الذكاء الاصطناعي البصرية-اللغوية Frontier Vision: Qwen3-VL النماذج البصرية-اللغوية (VLMs) تمثل تطورًا كبيرًا في قدرة الذكاء الاصطناعي على فهم الوثائق والصور من خلال دمج المدخلات البصرية والنصية، والرد ببيانات نصية دقيقة. في هذا المقال، نستعرض النموذج الجديد Qwen3-VL، ونسلط الضوء على قدراته المتميزة، مع شرح كيفية استخدامه في مهام استخراج المعلومات من الوثائق والصور. تم إطلاق Qwen3-VL قبل بضعة أسابيع، بدءًا من النموذج الكبير 235B-A22B، ثم تبعه نموذج 30B-A3B، وأخيرًا تم إصدار النسخ المكثفة 4B و8B، مما يتيح استخدامه على أنظمة أقل قوة. الهدف من هذا المقال هو تسليط الضوء على إمكانيات النماذج البصرية-اللغوية، مع التركيز على Qwen3-VL كمثال عملي، دون أي ترابط رسمي مع الفريق المطور. لماذا نحتاج إلى نماذج بصرية-لغوية؟ الحل البديل الشائع هو استخدام تقنية OCR (استخراج النص من الصور) ثم إدخال النص المستخرج إلى نموذج لغوي (LLM). لكن هذه الطريقة تعاني من عدة قيود: تُعاني أدوات OCR التقليدية مثل Tesseract من صعوبة في التعامل مع النصوص الصغيرة، أو المائلة، أو النصوص الرأسية، أو الصور المشوهة. عند فقدان دقة النص المستخرج، تتأثر جميع المهام اللاحقة، سواء كانت باستخدام التعبيرات النمطية (regex) أو النماذج اللغوية. في بعض الحالات، يكون موقع النص في الصورة حاسمًا لفهم معناه. مثال بسيط: ورقة تحتوي على مربعات اختيار (checkboxes)، حيث يُشار إلى بعضها بعلامة "X". دون معرفة الارتباط البصري بين المربع والنص، يصبح من الصعب تحديد أي النصوص مختارة. لكن النماذج البصرية-اللغوية تحل هذه المشكلة بسهولة، لأنها تفهم العلاقة بين الصورة والنص. في تجربة عملية، قمت بإدخال صورة تحتوي على مربعات اختيار إلى Qwen3-VL، وحصلت على استجابة دقيقة: بناءً على الصورة المقدمة، فإن الوثائق المختارة هي: - الوثيقة 1 (مميزة بعلامة "X") - الوثيقة 3 (مميزة بعلامة "X") الوثيقة 2 غير مختارة (فارغة). هذا يوضح قدرة النموذج على فهم السياق البصري بدقة. إضافة إلى ذلك، تتيح النماذج البصرية-اللغوية فهم الفيديو، حيث يمكنها تحليل مئات الصور المتتالية (مثل مشاهد فيديو) لاستخلاص المعاني، وهو ما يصعب تحقيقه باستخدام OCR وحده. مهمات النماذج البصرية-اللغوية من أبرز المهام التي يمكن تنفيذها: استخراج النص (OCR): تُدرب النماذج على استخراج النص من الصور، وغالبًا ما تُستخدم بيانات OCR في تدريبها. استخراج المعلومات (Information Extraction): سحب بيانات محددة من الوثائق مثل التاريخ، العنوان، المقياس، إلخ، وتصديرها بصيغة JSON. تحليل السياق البصري: فهم العلاقات بين العناصر في الصورة، مثل الارتباط بين مربعات الاختيار والنص. التجربة العملية: Qwen3-VL على وثيقة حقيقية استخدمت صورة من وثيقة رسمية من "مكتب التخطيط والبناء" في أوسلو، النرويج، مُقَصَّة لضمان جودة التفاصيل. تم استخراج الصورة من ملف PDF بدقة 600 نقطة في البوصة، وتم تقليل حجمها لضمان الأداء على جهاز محلي. لتشغيل Qwen3-VL، احتاجت إلى: مكتبات مثل torch، accelerate، Pillow، torchvision، وtransformers من المصدر (لأن النموذج لم يُدرج بعد في الإصدار الرسمي). كود التنفيذ يشمل: دالة لتصغير الصورة إذا لزم الأمر مع الحفاظ على النسبة. دالة لبناء رسالة مخصصة (system + user) تتضمن الصورة والنص. دالة للتحصيل (inference) تُرسل الصورة والرسالة إلى النموذج. الاستخراج النصي (OCR): باستخدام النص: "اقرأ كل النص في الصورة"، نجح Qwen3-VL في استخراج النص بدقة: Plan- og bygningsetaten Dato: 23.01.2014 Bruker: HKN Målestokk 1:500 Ekvidistanse 1m Høydegrunnlag: Oslo lokal Koordinatsystem: EUREF89 - UTM sone 32 © Plan- og bygningsetaten, Oslo kommune Originalformat A3 Adresse: Camilla Colletts vei 15 Gnr/Bnr: . Kartet er sammenstilt for: . PlotID: / Best.nr.: 27661 / Deres ref: Camilla Colletts vei 15 Kommentar: Gjeldende kommunedelplaner: KDP-BB, KDP-13, KDP-5 Kartutsnittet gjelder vertikalinvå 2. I tillegg finnes det regulering i følgende vertikalinvå: (Hvis blank: Ingen øvrige.) Det er ikke registrert naturn mangfold innenfor Se tegnforklaring på eget ark. Beskrivelse: NR: Dato: Revidert dato: استخراج المعلومات (Information Extraction): باستخدام طلب JSON، نجح النموذج في استخراج البيانات المطلوبة: json { "date": "2014-01-23", "address": "Camilla Colletts vei 15", "gnr": "15", "scale": "1:500" } ملاحظة: رغم أن حقل "Gnr" فارغ في الصورة، افترض النموذج أن رقم الشارع (15) هو "Gnr"، وهو تفسير منطقي. وعند سؤاله عن "Bnr" (الرقم المبني) الذي لا يوجد، أعاد النموذج None، مما يثبت قدرته على التمييز بين المعلومة الموجودة والغائبة. العيوب الحالية للنماذج البصرية-اللغوية رغم الإمكانات الكبيرة، توجد بعض التحديات: فقدان نص في بعض الأحيان: قد تتجاهل النماذج أجزاء من النص، خاصة في الصور المعقدة أو ذات التفاصيل الكثيرة، مما يُعد خطرًا في المهام الحساسة. الاستهلاك العالي للموارد: حتى النماذج الصغيرة تتطلب موارد حاسوبية كبيرة. وعند محاولة معالجة صور بحجم 2048×2048، بدأت أواجه مشاكل في الذاكرة، مما يحد من استخدامها على الأجهزة العادية. الخلاصة النماذج البصرية-اللغوية مثل Qwen3-VL تمثل خطوة جوهرية نحو نماذج ذكاء اصطناعي أكثر شمولاً. فهي لا تقتصر على فهم النص، بل تفهم السياق البصري، مما يفتح آفاقًا جديدة في معالجة الوثائق، استخراج البيانات، وتحليل الفيديو. على الرغم من التحديات الحالية، فإن التطور في هذا المجال سريع، ونحن على أعتاب عصر يعتمد فيه الذكاء الاصطناعي على التفاعل بين الصورة والنص بشكل متوازن وعميق.

تُعد نماذج اللغة والرؤية (VLMs) خطوة متقدمة في تطوير الذكاء الاصطناعي، حيث تُتيح التفاعل مع الصور والنصوص معًا، مما يفتح آفاقًا جديدة في معالجة المستندات والبيانات البصرية. من أبرز هذه النماذج، نموذج Qwen3-VL، الذي أُطلق مؤخرًا بنسخ متعددة، من أصغرها 4B إلى الأكبر 235B، مع توفر نسخة مكثفة بحجم 4B و8B مناسبة للتشغيل المحلي. السبب الرئيسي لاعتماد VLMs هو تفوقها على النهج التقليدي المتمثل في استخدام تقنية OCR (استخراج النص من الصور) ثم إدخال النص الناتج إلى نموذج لغوي (LLM). فبينما تُعد OCR أداة فعالة، إلا أنها تعاني من مشكلات مثل ضعف جودة النص عند وجود نصوص صغيرة أو مائلة أو رأسية، أو عند وجود تشويش في الصورة. أكثر من ذلك، فإن فقدان الترتيب البصري للنص يُعد عائقًا كبيرًا في المهام التي تعتمد على التفاعل بين النص والشكل، مثل تحديد النصوص المرتبطة بخانات اختيار مُشَخَّصة (مثل علامات صح أو فارغة)، حيث لا يمكن لـ OCR وحده تحديد أي نص يرتبط بخانة مُشَخَّصة. في تجربة عملية، تم عرض صورة من مستند حكومي من بلدية أوسلو على نموذج Qwen3-VL باستخدام نموذج 4B، وتم طلب استخراج النصوص المُشَخَّصة. أجاب النموذج بدقة: "الوثائق المُشَخَّصة هي: الوثيقة 1 والوثيقة 3"، وهو ما يُظهر قدرة النموذج على فهم الترابط البصري بين العناصر، وهو أمر مستحيل باستخدام OCR وحده. كما تم اختبار النموذج في مهمة استخراج النص من الصورة باستخدام سؤال بسيط: "اقرأ كل النص في الصورة"، وتم استخراج جميع النصوص بدقة، بما في ذلك التواريخ، والعنوان، ومقياس الرسم، والبيانات الفنية، دون أي أخطاء. ثم تم تطبيق مهمة استخراج البيانات الهيكلية بتنسيق JSON، حيث طُلب استخراج: التاريخ، العنوان، مقياس الرسم، ورقم الشارع (Gnr). أعاد النموذج JSONًا صالحًا، واعترف بغياب معلومات مثل رقم المبنى (Bnr) بوضع القيمة None، مما يدل على وعيه بحدود المعلومات المتاحة. رغم هذه الإمكانات، لا تخلو VLMs من عيوب. من أبرزها: فقدان جزء من النص في بعض الأحيان دون تفسير واضح، مما قد يؤدي إلى فقدان معلومات حيوية. كما أن هذه النماذج تتطلب قدرات معالجة عالية، حتى النسخ الصغيرة مثل 4B تواجه صعوبات عند معالجة صور كبيرة (مثل 2048×2048)، مما يحد من استخدامها في معالجة مستندات طويلة أو ذات دقة عالية. باختصار، تمثل VLMs، مثل Qwen3-VL، تطورًا جوهريًا في معالجة المعلومات البصرية والنصية معًا. فهي تتفوق على النماذج التقليدية في المهام التي تتطلب فهمًا بصريًا، وتُعد حجر الأساس لتطبيقات مستقبلية في استخراج البيانات، تحليل المستندات، وفهم الفيديو. ومع استمرار تطوير هذه النماذج، من المتوقع أن تصبح الأدوات الأساسية في العديد من المجالات الصناعية والبحثية.

الروابط ذات الصلة

كيف تستخدم نماذج الذكاء الاصطناعي البصرية-اللغوية Frontier Vision: Qwen3-VL النماذج البصرية-اللغوية (VLMs) تمثل تطورًا كبيرًا في قدرة الذكاء الاصطناعي على فهم الوثائق والصور من خلال دمج المدخلات البصرية والنصية، والرد ببيانات نصية دقيقة. في هذا المقال، نستعرض النموذج الجديد Qwen3-VL، ونسلط الضوء على قدراته المتميزة، مع شرح كيفية استخدامه في مهام استخراج المعلومات من الوثائق والصور. تم إطلاق Qwen3-VL قبل بضعة أسابيع، بدءًا من النموذج الكبير 235B-A22B، ثم تبعه نموذج 30B-A3B، وأخيرًا تم إصدار النسخ المكثفة 4B و8B، مما يتيح استخدامه على أنظمة أقل قوة. الهدف من هذا المقال هو تسليط الضوء على إمكانيات النماذج البصرية-اللغوية، مع التركيز على Qwen3-VL كمثال عملي، دون أي ترابط رسمي مع الفريق المطور. لماذا نحتاج إلى نماذج بصرية-لغوية؟ الحل البديل الشائع هو استخدام تقنية OCR (استخراج النص من الصور) ثم إدخال النص المستخرج إلى نموذج لغوي (LLM). لكن هذه الطريقة تعاني من عدة قيود: تُعاني أدوات OCR التقليدية مثل Tesseract من صعوبة في التعامل مع النصوص الصغيرة، أو المائلة، أو النصوص الرأسية، أو الصور المشوهة. عند فقدان دقة النص المستخرج، تتأثر جميع المهام اللاحقة، سواء كانت باستخدام التعبيرات النمطية (regex) أو النماذج اللغوية. في بعض الحالات، يكون موقع النص في الصورة حاسمًا لفهم معناه. مثال بسيط: ورقة تحتوي على مربعات اختيار (checkboxes)، حيث يُشار إلى بعضها بعلامة "X". دون معرفة الارتباط البصري بين المربع والنص، يصبح من الصعب تحديد أي النصوص مختارة. لكن النماذج البصرية-اللغوية تحل هذه المشكلة بسهولة، لأنها تفهم العلاقة بين الصورة والنص. في تجربة عملية، قمت بإدخال صورة تحتوي على مربعات اختيار إلى Qwen3-VL، وحصلت على استجابة دقيقة: بناءً على الصورة المقدمة، فإن الوثائق المختارة هي: - الوثيقة 1 (مميزة بعلامة "X") - الوثيقة 3 (مميزة بعلامة "X") الوثيقة 2 غير مختارة (فارغة). هذا يوضح قدرة النموذج على فهم السياق البصري بدقة. إضافة إلى ذلك، تتيح النماذج البصرية-اللغوية فهم الفيديو، حيث يمكنها تحليل مئات الصور المتتالية (مثل مشاهد فيديو) لاستخلاص المعاني، وهو ما يصعب تحقيقه باستخدام OCR وحده. مهمات النماذج البصرية-اللغوية من أبرز المهام التي يمكن تنفيذها: استخراج النص (OCR): تُدرب النماذج على استخراج النص من الصور، وغالبًا ما تُستخدم بيانات OCR في تدريبها. استخراج المعلومات (Information Extraction): سحب بيانات محددة من الوثائق مثل التاريخ، العنوان، المقياس، إلخ، وتصديرها بصيغة JSON. تحليل السياق البصري: فهم العلاقات بين العناصر في الصورة، مثل الارتباط بين مربعات الاختيار والنص. التجربة العملية: Qwen3-VL على وثيقة حقيقية استخدمت صورة من وثيقة رسمية من "مكتب التخطيط والبناء" في أوسلو، النرويج، مُقَصَّة لضمان جودة التفاصيل. تم استخراج الصورة من ملف PDF بدقة 600 نقطة في البوصة، وتم تقليل حجمها لضمان الأداء على جهاز محلي. لتشغيل Qwen3-VL، احتاجت إلى: مكتبات مثل torch، accelerate، Pillow، torchvision، وtransformers من المصدر (لأن النموذج لم يُدرج بعد في الإصدار الرسمي). كود التنفيذ يشمل: دالة لتصغير الصورة إذا لزم الأمر مع الحفاظ على النسبة. دالة لبناء رسالة مخصصة (system + user) تتضمن الصورة والنص. دالة للتحصيل (inference) تُرسل الصورة والرسالة إلى النموذج. الاستخراج النصي (OCR): باستخدام النص: "اقرأ كل النص في الصورة"، نجح Qwen3-VL في استخراج النص بدقة: Plan- og bygningsetaten Dato: 23.01.2014 Bruker: HKN Målestokk 1:500 Ekvidistanse 1m Høydegrunnlag: Oslo lokal Koordinatsystem: EUREF89 - UTM sone 32 © Plan- og bygningsetaten, Oslo kommune Originalformat A3 Adresse: Camilla Colletts vei 15 Gnr/Bnr: . Kartet er sammenstilt for: . PlotID: / Best.nr.: 27661 / Deres ref: Camilla Colletts vei 15 Kommentar: Gjeldende kommunedelplaner: KDP-BB, KDP-13, KDP-5 Kartutsnittet gjelder vertikalinvå 2. I tillegg finnes det regulering i følgende vertikalinvå: (Hvis blank: Ingen øvrige.) Det er ikke registrert naturn mangfold innenfor Se tegnforklaring på eget ark. Beskrivelse: NR: Dato: Revidert dato: استخراج المعلومات (Information Extraction): باستخدام طلب JSON، نجح النموذج في استخراج البيانات المطلوبة: json { "date": "2014-01-23", "address": "Camilla Colletts vei 15", "gnr": "15", "scale": "1:500" } ملاحظة: رغم أن حقل "Gnr" فارغ في الصورة، افترض النموذج أن رقم الشارع (15) هو "Gnr"، وهو تفسير منطقي. وعند سؤاله عن "Bnr" (الرقم المبني) الذي لا يوجد، أعاد النموذج None، مما يثبت قدرته على التمييز بين المعلومة الموجودة والغائبة. العيوب الحالية للنماذج البصرية-اللغوية رغم الإمكانات الكبيرة، توجد بعض التحديات: فقدان نص في بعض الأحيان: قد تتجاهل النماذج أجزاء من النص، خاصة في الصور المعقدة أو ذات التفاصيل الكثيرة، مما يُعد خطرًا في المهام الحساسة. الاستهلاك العالي للموارد: حتى النماذج الصغيرة تتطلب موارد حاسوبية كبيرة. وعند محاولة معالجة صور بحجم 2048×2048، بدأت أواجه مشاكل في الذاكرة، مما يحد من استخدامها على الأجهزة العادية. الخلاصة النماذج البصرية-اللغوية مثل Qwen3-VL تمثل خطوة جوهرية نحو نماذج ذكاء اصطناعي أكثر شمولاً. فهي لا تقتصر على فهم النص، بل تفهم السياق البصري، مما يفتح آفاقًا جديدة في معالجة الوثائق، استخراج البيانات، وتحليل الفيديو. على الرغم من التحديات الحالية، فإن التطور في هذا المجال سريع، ونحن على أعتاب عصر يعتمد فيه الذكاء الاصطناعي على التفاعل بين الصورة والنص بشكل متوازن وعميق. | القصص الشائعة | HyperAI