HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

POINTS-Reader: التكييف بدون تقطير للنماذج البصرية-اللغوية لتحويل المستندات

Yuan Liu Zhongyin Zhao Le Tian Haicheng Wang Xubing Ye et al

POINTS-Reader: التكييف بدون تقطير للنماذج البصرية-اللغوية لتحويل المستندات

الملخص

تُعد البيانات المُصنّفة عالية الجودة ضرورية لتدريب نماذج تحويل المستندات الدقيقة، خاصة في المجالات التي تتميز بتنسيقات معقدة مثل الجداول والصيغ الرياضية والنصوص متعددة الأعمدة. ومع ذلك، فإن التصنيف اليدوي يُعد مكلفًا وطويل الأمد، في حين أن التصنيف التلقائي باستخدام النماذج الحالية غالبًا ما يفتقر إلى الدقة في التعامل مع هذه السيناريوهات الصعبة. ونتيجة لذلك، فإن تدريب النماذج الدراسية من خلال استخلاص النتائج من النماذج المعلمة (المعلّمات) يُحدّ من أدائها بشكل كبير في التطبيقات الواقعية. في هذا البحث، نقترح إطارًا تلقائيًا بالكامل، خالٍ من عملية الاستخلاص (distillation-free)، مكوّنًا من مرحلتين، لبناء مجموعات بيانات ونماذج استخراج مستندات عالية الجودة قادرة على التعامل مع تنسيقات وتنسيقات مستندات متنوعة. في المرحلة الأولى، نقدّم طريقة لتكوين بيانات مُصطنعة كبيرة الحجم ومتنوعة، تُمكّن النموذج من استخراج العناصر الأساسية بصيغة موحّدة وبأداء أولي قوي. وفي المرحلة الثانية، نعرض منهجية تحسين ذاتي تُعدّل النموذج، الذي تم تدريبه أولًا على بيانات مصطنعة، ليكون أكثر ملاءمة للوثائق الواقعية. وبشكل محدد، نستخدم أولًا النموذج المُعدّل دقيقًا لتصنيف الوثائق الحقيقية، ثم نطبّق مجموعة من استراتيجيات التصفية للتحقق من جودة التصنيف، وأخيرًا نُعيد تدريب النموذج على مجموعة البيانات المُصدّقة. وبتكرار هذه العملية بشكل تتابعي، نُعزّز تدريجيًا كلاً من قدرة النموذج على التحويل ونوعية البيانات المُنتجة. وقد قمنا بتدريب نموذج POINTS-1.5 العام ليصبح POINTS-Reader، الذي يتفوّق على العديد من النماذج العامة والخاصة ذات الحجم المماثل أو الأكبر. يُتاح هذا النموذج عبر الرابط التالي: [هذا الرابط]

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp