HyperAIHyperAI

Command Palette

Search for a command to run...

متغير فهم الوثائق بدون OCR

الملخص

فهم صور الوثائق (مثل الفواتير) هو مهمة أساسية ولكنها محفوفة بالتحديات، حيث تتطلب وظائف معقدة مثل قراءة النصوص وفهم شامل للوثيقة. تلجأ الطرق الحالية لفهم الوثائق البصرية (VDU) إلى تفويض مهمة قراءة النص إلى محركات التعرف البصري على الحروف (OCR) جاهزة الاستخدام وتركز على مهمة الفهم باستخدام نتائج OCR. رغم أن هذه الأساليب القائمة على OCR أظهرت أداءً واعداً، إلا أنها تعاني من: 1) التكاليف الحسابية العالية لاستخدام OCR؛ 2) عدم المرونة في نماذج OCR فيما يتعلق باللغات أو أنواع الوثائق؛ 3) انتشار أخطاء OCR في العمليات اللاحقة. لمعالجة هذه المشكلات، نقدم في هذا البحث نموذجاً جديداً للفهم البصري للوثائق دون الحاجة إلى OCR يُسمى Donut، وهو اختصار لـ Document Understanding Transformer (متغير فهم الوثيقة). كخطوة أولى في بحوث VDU بدون OCR، نقترح هندسة بسيطة (أي متغير Transformer) مع هدف تدريب مسبق (أي خسارة التباين المتقاطع Cross-Entropy Loss). يتميز Donut بمفهوم بسيط ولكنه فعال. من خلال التجارب والتحليلات الشاملة، نوضح أن النموذج البسيط للفهم البصري للوثائق دون الحاجة إلى OCR، Donut، يحقق أفضل الأداء في مختلف مهام VDU من حيث السرعة والدقة. بالإضافة إلى ذلك، نوفر مولد بيانات اصطناعية يساعد على جعل التدريب المسبق للموديل مرناً في اللغات والمجالات المختلفة. يمكن الوصول إلى الكود والنماذج المدربة والبيانات الاصطناعية عبر الرابط https://github.com/clovaai/donut.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
متغير فهم الوثائق بدون OCR | مستندات | HyperAI