Command Palette
Search for a command to run...
سمولدوكلينج: نموذج رؤية ولغة شديد الصغر لتحويل الوثائق متعددة الوسائط من البداية إلى النهاية

الملخص
نقدّم نموذج SmolDocling، وهو نموذج بصرى-لغوى مدمج للغاية مُصمم لتحويل المستندات بشكل منتهٍ إلى نهاية (end-to-end). يتميّز النموذج بقدرته على معالجة الصفحات بأكملها من خلال إنتاج "DocTags"، وهي صيغة عامة جديدة للتنسيق تُسجّل جميع عناصر الصفحة في سياقها الكامل مع تحديد مواقعها الدقيقة. على عكس النماذج الحالية التي تعتمد على نماذج أساسية ضخمة، أو الحلول المجمّعة التي تعتمد على سلاسل مُصممة يدويًا من نماذج متخصصة متعددة، يقدّم SmolDocling حلًا متكاملًا لتحويل المستندات، قادرًا على التقاط المحتوى والهيكل والموقع المكاني للعناصر داخل المستند بدقة ضمن نموذج بصرى-لغوى يحتوي على 256 مليون معلمة فقط. وتُظهر النتائج أن SmolDocling أداءً قويًا في إعادة إنتاج سمات المستندات بدقة، مثل قوائم الشيفرات، الجداول، المعادلات، المخططات، القوائم، وغيرها، عبر طيف واسع من أنواع المستندات، بما في ذلك المستندات التجارية، والورقات الأكاديمية، والتقارير الفنية، والبراءات، والنموذجية (النماذج)، ما يمتد بشكل كبير خارج النطاق الشائع المتمحور حول الورقات العلمية. إلى جانب ذلك، نقدّم مجموعات بيانات جديدة مُستمدة من مصادر عامة لتمييز المخططات، الجداول، المعادلات، وشفرات البرمجة. تُظهر النتائج التجريبية أن SmolDocling يتنافس مع نماذج بصرى-لغوية أخرى تصل حجمها إلى 27 مرة أكبر، مع تقليل كبير في متطلبات الحوسبة. يُتاح النموذج حاليًا، وسيتم إتاحة مجموعات البيانات للجمهور قريبًا.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.