HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

سمولدوكلينج: نموذج رؤية ولغة شديد الصغر لتحويل الوثائق متعددة الوسائط من البداية إلى النهاية

سمولدوكلينج: نموذج رؤية ولغة شديد الصغر لتحويل الوثائق متعددة الوسائط من البداية إلى النهاية

الملخص

نقدّم نموذج SmolDocling، وهو نموذج بصرى-لغوى مدمج للغاية مُصمم لتحويل المستندات بشكل منتهٍ إلى نهاية (end-to-end). يتميّز النموذج بقدرته على معالجة الصفحات بأكملها من خلال إنتاج "DocTags"، وهي صيغة عامة جديدة للتنسيق تُسجّل جميع عناصر الصفحة في سياقها الكامل مع تحديد مواقعها الدقيقة. على عكس النماذج الحالية التي تعتمد على نماذج أساسية ضخمة، أو الحلول المجمّعة التي تعتمد على سلاسل مُصممة يدويًا من نماذج متخصصة متعددة، يقدّم SmolDocling حلًا متكاملًا لتحويل المستندات، قادرًا على التقاط المحتوى والهيكل والموقع المكاني للعناصر داخل المستند بدقة ضمن نموذج بصرى-لغوى يحتوي على 256 مليون معلمة فقط. وتُظهر النتائج أن SmolDocling أداءً قويًا في إعادة إنتاج سمات المستندات بدقة، مثل قوائم الشيفرات، الجداول، المعادلات، المخططات، القوائم، وغيرها، عبر طيف واسع من أنواع المستندات، بما في ذلك المستندات التجارية، والورقات الأكاديمية، والتقارير الفنية، والبراءات، والنموذجية (النماذج)، ما يمتد بشكل كبير خارج النطاق الشائع المتمحور حول الورقات العلمية. إلى جانب ذلك، نقدّم مجموعات بيانات جديدة مُستمدة من مصادر عامة لتمييز المخططات، الجداول، المعادلات، وشفرات البرمجة. تُظهر النتائج التجريبية أن SmolDocling يتنافس مع نماذج بصرى-لغوية أخرى تصل حجمها إلى 27 مرة أكبر، مع تقليل كبير في متطلبات الحوسبة. يُتاح النموذج حاليًا، وسيتم إتاحة مجموعات البيانات للجمهور قريبًا.

مستودعات الكود

docling-project/docling
مذكور في GitHub
DS4SD/docling
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سمولدوكلينج: نموذج رؤية ولغة شديد الصغر لتحويل الوثائق متعددة الوسائط من البداية إلى النهاية | الأوراق البحثية | HyperAI