HyperAIHyperAI

Command Palette

Search for a command to run...

VSR: إطار موحد لتحليل تخطيط المستندات يجمع بين الرؤية والمعاني والعلاقات

Peng Zhang Can Li Liang Qiao Zhanzhan Cheng Shiliang Pu Yi Niu Fei Wu

الملخص

تحليل تخطيط المستندات أمر بالغ الأهمية لفهم هيكل المستندات. وفي هذا السياق، تساهم الرؤية والمعاني الخاصة بالمستندات، بالإضافة إلى العلاقات بين مكونات التخطيط، في عملية الفهم. وعلى الرغم من الدراسات العديدة التي تم اقتراحها لاستغلال هذه المعلومات، إلا أنها أظهرت نتائج غير مرضية. حيث تُعد الطرق القائمة على معالجة اللغة الطبيعية (NLP) نموذج تحليل التخطيط على أنه مهمة تسمية تسلسلية، وتُظهر قدرات محدودة في نمذجة التخطيط. أما الطرق القائمة على الرؤية الحاسوبية (CV)، فهي تُعامل تحليل التخطيط كمهمة كشف أو تقسيم، لكنها تعاني من قيود تتعلق بدمج الوسائط غير الفعّال، وغياب نمذجة العلاقات بين مكونات التخطيط. ولحل هذه القيود، نقترح إطارًا موحدًا يُسمى VSR لتحليل تخطيط المستندات، يجمع بين الرؤية والمعاني والعلاقات. ويُدعم إطار VSR كلًا من الطرق القائمة على NLP والطرق القائمة على CV. بشكل محدد، نُقدّم أولًا الرؤية من خلال صورة المستند، والمعاني من خلال خرائط التضمين النصي. ثم نستخرج ميزات بصرية وذاتية مخصصة لكل وسيلة باستخدام شبكة ذات تدفقين، والتي تُدمج تلقائيًا للاستفادة القصوى من المعلومات المكملة. وأخيرًا، وباستخدام مرشحات مكونات مرشحة، نُدمج وحدة للعلاقات تعتمد على الشبكات العصبية الرسومية (Graph Neural Networks) لنمذجة العلاقات بين المكونات وإنتاج النتائج النهائية. وقد أظهر VSR تفوقًا كبيرًا على النماذج السابقة في ثلاث معايير شهيرة. وسيتم إصدار الشفرة البرمجية قريبًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp