HyperAIHyperAI
منذ 2 أشهر

متغير فهم الوثائق بدون OCR

Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun
متغير فهم الوثائق بدون OCR
الملخص

فهم صور الوثائق (مثل الفواتير) هو مهمة أساسية ولكنها محفوفة بالتحديات، حيث تتطلب وظائف معقدة مثل قراءة النصوص وفهم شامل للوثيقة. تلجأ الطرق الحالية لفهم الوثائق البصرية (VDU) إلى تفويض مهمة قراءة النص إلى محركات التعرف البصري على الحروف (OCR) جاهزة الاستخدام وتركز على مهمة الفهم باستخدام نتائج OCR. رغم أن هذه الأساليب القائمة على OCR أظهرت أداءً واعداً، إلا أنها تعاني من: 1) التكاليف الحسابية العالية لاستخدام OCR؛ 2) عدم المرونة في نماذج OCR فيما يتعلق باللغات أو أنواع الوثائق؛ 3) انتشار أخطاء OCR في العمليات اللاحقة. لمعالجة هذه المشكلات، نقدم في هذا البحث نموذجاً جديداً للفهم البصري للوثائق دون الحاجة إلى OCR يُسمى Donut، وهو اختصار لـ Document Understanding Transformer (متغير فهم الوثيقة). كخطوة أولى في بحوث VDU بدون OCR، نقترح هندسة بسيطة (أي متغير Transformer) مع هدف تدريب مسبق (أي خسارة التباين المتقاطع Cross-Entropy Loss). يتميز Donut بمفهوم بسيط ولكنه فعال. من خلال التجارب والتحليلات الشاملة، نوضح أن النموذج البسيط للفهم البصري للوثائق دون الحاجة إلى OCR، Donut، يحقق أفضل الأداء في مختلف مهام VDU من حيث السرعة والدقة. بالإضافة إلى ذلك، نوفر مولد بيانات اصطناعية يساعد على جعل التدريب المسبق للموديل مرناً في اللغات والمجالات المختلفة. يمكن الوصول إلى الكود والنماذج المدربة والبيانات الاصطناعية عبر الرابط https://github.com/clovaai/donut.

متغير فهم الوثائق بدون OCR | أحدث الأوراق البحثية | HyperAI