HyperAI
Back to Headlines

تحسين نماذج اللغة المرتبطة بالرؤية مثل Qwen 2.5 VL لاستخراج النصوص المكتوبة بخط اليد من صور النباتات الموسمية النرويجية

منذ 18 أيام

تحسين نماذج اللغات الكبيرة المرتبطة بالرؤية لفهم المستندات في هذا المقال، سنناقش كيفية تحسين نماذج اللغات الكبيرة المرتبطة بالرؤية (vLLMs) مثل Qwen 2.5 VL 7B. سنقوم بتقديم مجموعة بيانات تحتوي على أرقام مكتوبة بخط اليد، والتي تواجه النسخة الأساسية من Qwen 2.5 VL صعوبة في التعامل معها. ثم سنقوم بمراجعة البيانات، تسميتها، واستخدامها لخلق نموذج Qwen 2.5 VL محسن ومخصص لاستخراج النصوص المكتوبة بخط اليد. ملخص المقال الهدف الأساسي: يتمثل الهدف الرئيسي لهذا المقال في تحسين نموذج LLM لاستخراج النصوص المكتوبة بخط اليد من مجموعة بيانات، وهي تقنية مهمة في عالم الذكاء الاصطناعي اليوم، حيث تغير نماذج اللغات الكبيرة الطريقة التي يعمل بها علماء البيانات ومصممو النماذج. العناصر الرئيسية التي سنناقشها: 1. تحديات استخراج النصوص المكتوبة بخط اليد. 2. مزايا استخدام نماذج LLM المرتبطة بالرؤية. 3. عملية تسمية البيانات وتحسين النموذج. 4. النتائج والرسوم البيانية للبيانات المستخرجة. الدافع والهدف الهدف من هذا المقال هو توضيح كيفية تحسين نموذج LLM مثل Qwen 2.5 VL لتحقيق أداء أفضل في مهمة معينة. المهمة التي سنعمل عليها هي استخراج النصوص المكتوبة بخط اليد من سلسلة الصور. العمل في هذا المقال يستند إلى مجموعة بيانات في النرويج تتعلق بالفيونولوجيا (دراسة الأحداث الموسمية في الطبيعة)، والتي يمكن استخدامها في البحث المناخي. المعلومات المستخرجة من هذه الصور ثمينة للغاية ويمكن أن تساهم بشكل كبير في البحث العلمي. لماذا نحتاج إلى استخدام نماذج LLM المرتبطة بالرؤية عند النظر إلى الصور، قد تعتقد أننا يجب أن نطبق تقنيات OCR التقليدية. ومع ذلك، فإن النماذج الحديثة للغات الكبيرة المرتبطة بالرؤية (vLLMs) غالباً ما تتفوق على نماذج OCR التقليدية في استخراج النصوص من الصور، كما يظهر في الصورة أدناه. تظهر هذه الصورة أن نموذج EasyOCR يرتكب أخطاء كبيرة في استخراج النصوص، بينما يتفوق النموذج المحسن من Qwen. | الصور | EasyOCR | Qwen المحسن | |-------|---------|-------------| | صورة 1 | 1 | 1 | | صورة 2 | 7 | 1 | | صورة 3 | 1 | 1 | مزايا استخدام نماذج LLM المرتبطة بالرؤية هناك عدة مزايا لاستخدام نماذج LLM المرتبطة بالرؤية عند استخراج النصوص من الصور: 1. تفوق في OCR: تتفوق نماذج LLM المرتبطة بالرؤية في استخراج النصوص المكتوبة بخط اليد لأن ذلك جزء من عملية التدريب الخاصة بهم. 2. تقديم التعليمات: يمكنك تقديم تعليمات للنموذج حول كيفية تفسير النصوص، وهو ما لا يمكن فعله مع نماذج OCR التقليدية. تحديات استخراج النصوص المكتوبة بخط اليد استخراج النصوص المكتوبة بخط اليد كان دائماً تحدياً بسبب عدم قياسها. الخط اليدوي يختلف بشكل كبير من شخص لآخر، مما يجعل من الصعب على نماذج OCR التقليدية تمييز الحروف بدقة. على سبيل المثال، يمكن أن تبدو الأرقام "1" و "7" مشابهة، كما يظهر في الصورة التالية: عملية تسمية البيانات وتحسين النموذج بعد فحص مجموعة البيانات بعناية، حان الوقت للعمل على تسمية البيانات وتحسين النموذج. تشمل هذه العملية ثلاث خطوات رئيسية: 1. التنبؤ: استخدام النموذج الأساسي لاستخراج النصوص من بضع مئات الصور. 2. مراجعة وتصحيح الأخطاء: مراجعة التوقعات وتصحيح الأخطاء التي ارتكبها النموذج. 3. إعادة التدريب: استخدام العينات المصححة لتدريب النموذج مرة أخرى. الخطوة الأولى: التنبؤ - قم باستخدام النموذج الأساسي لاستخراج النصوص من بضع مئات الصور. العدد المحدد للصور ليس مهمًا، لكن يجب التوازن بين جمع عدد كافٍ من العلامات ومراعاة وقت التدريب. الخطوة الثانية: مراجعة وتصحيح الأخطاء - قم بإعداد بيئة تتيح لك مراجعة الصور والعلامات بسهولة. على سبيل المثال، استخدمت Notebook Jupyter لعرض الصور والعلامات وتصحيح الأخطاء. الخطوة الثالثة: إعادة التدريب - استخدم الحزم البرمجية مثل Unsloth لتدريب النموذج. قم بتغيير الأكواد لتناسب النموذج Qwen 2.5 VL 7B. التفاصيل التقنية للتحسين الإشرافي (SFT) دقة العلامات: - الدقة في تسمية البيانات مهمة للغاية. حتى الأخطاء البسيطة يمكن أن تكون ضارة لأداء النموذج. على سبيل المثال، عندما بدأت في تحسين النموذج، لاحظت أنه بدأ بخلط الأقواس "()" بالأسواط "[]". اتضح أن سبب هذا الخطأ هو وجود أخطاء في التسميات بنسبة 0.5%. موازنة البيانات: - قمت بتوازن مجموعة البيانات لتجنب التركيز الزائد على الصور الفارغة. حوالي 70% من الخلايا تحتوي على صور فارغة، لذا حرصت على أن لا يتجاوز نسبة هذه الصور 30% في مجموعة البيانات المستخدمة للتحسين. اختيار الطبقات للتحسين: - عندما تقوم بتحسين نموذج LLM، يجب عليك اختيار الطبقات المناسبة. في هذه الحالة، قمت بتحسين جميع الطبقات لأن النموذج يحتاج إلى تحسين طفيف فقط في قراءة الخط اليدوي. بحث المعلمات: - قمت ببحث المعلمات لتحديد المجموعة المثلى منها للتحسين. كان هذا ممكناً لأن الصور صغيرة والنموذج الذي أستخدمه (7B) لا يستغرق وقتاً طويلاً في التدريب. النتائج والرسوم البيانية بعد تكرار دورة التدريب، إنشاء المزيد من التسميات، وإعادة التدريب، تمكنت من إنشاء نموذج محسن وعالي الأداء. قمت بتشغيل ثلاثة نماذج مختلفة على أربع مجموعات اختبار، كل مجموعة تحتوي على 278 عينة. النتائج موضحة في الجدول التالي: | النموذج | مجموعة الاختبار 1 | مجموعة الاختبار 2 | مجموعة الاختبار 3 | مجموعة الاختبار 4 | |----------------|-------------------|-------------------|-------------------|-------------------| | EasyOCR | 65% | 68% | 70% | 72% | | Qwen الأساسي | 93% | 96% | 95% | 99% | | Qwen المحسن | 98% | 99% | 99% | 99% | النتائج تظهر clarament أن النموذج المحسن من Qwen يتفوق على النموذج الأساسي في جميع مجموعات الاختبار. الرسوم البيانية يمكن استخدام البيانات المستخرجة لإنشاء رسوم بيانية مفيدة. على سبيل الم 示例,下图展示了从图像中提取的树线数据,并将其绘制在挪威地图上。您可以看到,树线向海洋和北部方向变得更冷(更低),而在内陆地区则变得更暖(更高)。 如果您想进一步研究这些数据,可以在 HuggingFace 上找到所有数据。 الخاتمة في هذا المقال، قمنا بتقديم مجموعة بيانات في الفيونولوجيا تحتوي على صور صغيرة بخط اليد. واجهنا تحديات في استخراج النصوص من هذه الصور وناقشنا كيفية استخدام عملية ثلاث خطوات لإنشاء مجموعة بيانات موسومة وتحسين النموذج لتحسين الأداء. النتائج أظهرت أن النموذج المحسن من Qwen يعمل بشكل أفضل من النموذج الأساسي، ويمكن استخدام البيانات المستخرجة في البحث العلمي. الأشخاص الرئيسيون: إيفيند كيوسباكن ولارس أوردال. نبذة عن Findable: Findable هي شركة تعمل في مجال البيانات والذكاء الاصطناعي، وتهدف إلى تحسين فهم البيانات المركبة وجعلها قابلة للوصول. العمل في هذا المقال جرى كجزء من مشروعهم لتسليط الضوء على القدرات التقنية للنماذج الحديثة للغة والرؤية، وأيضاً لتقديم مجموعة بيانات في الفيونولوجيا من النرويج، والتي يمكن أن تساهم في البحث المناخي.

Related Links