الملخص

فهم صور الوثائق (مثل الفواتير) هو مهمة أساسية ولكنها محفوفة بالتحديات، حيث تتطلب وظائف معقدة مثل قراءة النصوص وفهم شامل للوثيقة. تلجأ الطرق الحالية لفهم الوثائق البصرية (VDU) إلى تفويض مهمة قراءة النص إلى محركات التعرف البصري على الحروف (OCR) جاهزة الاستخدام وتركز على مهمة الفهم باستخدام نتائج OCR. رغم أن هذه الأساليب القائمة على OCR أظهرت أداءً واعداً، إلا أنها تعاني من: 1) التكاليف الحسابية العالية لاستخدام OCR؛ 2) عدم المرونة في نماذج OCR فيما يتعلق باللغات أو أنواع الوثائق؛ 3) انتشار أخطاء OCR في العمليات اللاحقة. لمعالجة هذه المشكلات، نقدم في هذا البحث نموذجاً جديداً للفهم البصري للوثائق دون الحاجة إلى OCR يُسمى Donut، وهو اختصار لـ Document Understanding Transformer (متغير فهم الوثيقة). كخطوة أولى في بحوث VDU بدون OCR، نقترح هندسة بسيطة (أي متغير Transformer) مع هدف تدريب مسبق (أي خسارة التباين المتقاطع Cross-Entropy Loss). يتميز Donut بمفهوم بسيط ولكنه فعال. من خلال التجارب والتحليلات الشاملة، نوضح أن النموذج البسيط للفهم البصري للوثائق دون الحاجة إلى OCR، Donut، يحقق أفضل الأداء في مختلف مهام VDU من حيث السرعة والدقة. بالإضافة إلى ذلك، نوفر مولد بيانات اصطناعية يساعد على جعل التدريب المسبق للموديل مرناً في اللغات والمجالات المختلفة. يمكن الوصول إلى الكود والنماذج المدربة والبيانات الاصطناعية عبر الرابط https://github.com/clovaai/donut.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

متغير فهم الوثائق بدون OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

متغير فهم الوثائق بدون OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

متغير فهم الوثائق بدون OCR

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park