HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

دلفين: تحليل الصور المستندية عبر التحفيز المعلمي المتنوع

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

دلفين: تحليل الصور المستندية عبر التحفيز المعلمي المتنوع

الملخص

إن تحليل صور المستندات يُعدّ تحديًا كبيرًا بسبب التعقيد الكبير في التداخل بين عناصره المختلفة، مثل الفقرات النصية، والأشكال، والصيغ الرياضية، والجداول. تُتبع الطرق الحالية إما نماذج متخصصة مُعدّة من قبل خبراء، أو توليد محتوى الصفحة بشكل تلقائي متسلسل (autoregressively)، وتواجه هذه الأساليب عوائق في التكامل، ومشكلات في الكفاءة، وتدهورًا في هيكل التخطيط، رغم أداءها المقبول. ولحل هذه القيود، نقدّم نموذجًا جديدًا يُسمّى \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g})، وهو نموذج متعدد الوسائط لتحليل صور المستندات يتبع منهجية التحليل ثم التحليل (analyze-then-parse). في المرحلة الأولى، يُولّد Dolphin سلسلة من عناصر التخطيط بالترتيب القرائي. ثم تُستخدم هذه العناصر المتنوعة (الهوموجينية) كمراجع (anchors) مزامنة مع رسائل محددة للمهام، وتُعاد إلى نموذج Dolphin لتحليل المحتوى بالتوازي في المرحلة الثانية. ولتدريب نموذج Dolphin، قمنا ببناء مجموعة بيانات ضخمة تضم أكثر من 30 مليون عينة، وتغطي مهام تحليل متعددة الأحجام. وقد أظهرت التقييمات الشاملة على معايير شائعة ومُعدّة خصيصًا أداءً متميزًا على مستوى الحالة الراهنة (state-of-the-art) في مختلف الإعدادات على مستوى الصفحة وعلى مستوى العنصر، مع ضمان كفاءة عالية بفضل البنية الخفيفة وآلية التحليل المتوازية. يُمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا عبر الرابط التالي: هذا الرابط https URL

مستودعات الكود

bytedance/dolphin
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
دلفين: تحليل الصور المستندية عبر التحفيز المعلمي المتنوع | الأوراق البحثية | HyperAI