HyperAIHyperAI

Command Palette

Search for a command to run...

POINTS-Reader: نموذج خفيف الوزن لرؤية المستندات واللغة مع بنية متكاملة خالية من التقطير

1. مقدمة البرنامج التعليمي

يبني
رخصة

POINTS-Reader هو نموذج بصري لغوي (VLM) خفيف الوزن، مصمم لتحويل الصور إلى نصوص في المستندات، وقد أُطلق بالتعاون بين تينسنت وجامعة شنغهاي جياو تونغ وجامعة تسينغهوا في أغسطس 2025. لا يعتمد POINTS-Reader على حجم المعاملات ولا يعتمد على "تقطير" نموذج المعلم. بل يستخدم إطار عمل متطورًا ذاتيًا من مرحلتين لتحقيق دقة عالية في التعرف الشامل على المستندات الصينية والإنجليزية المعقدة (بما في ذلك الجداول والصيغ والتخطيطات متعددة الأعمدة) مع الحفاظ على هيكل بسيط. الأوراق البحثية ذات الصلة هي:POINTS-Reader: تكييف نماذج الرؤية واللغة دون الحاجة إلى التقطير لتحويل المستندات". وقد تم قبوله في EMNLP 2025 وسيتم تقديمه في المؤتمر الرئيسي.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.

2. عرض التأثير

عمود واحد مع صيغة لاتكس

المثال 1

عمود واحد مع جدول

المثال الثاني

متعدد الأعمدة مع صيغة لاتكس

المثال 3

متعدد الأعمدة مع جدول

المثال رقم 4

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

1. المحتوى المستخرج

المعلمات المحددة:

  • إدخال الاستعلام: أدخل متطلبات النص.
  • عامل تحسين الصورة: يزيد حجم الصورة قبل المعالجة. يُحسّن التعرف الضوئي على الحروف (OCR) للنصوص الصغيرة. القيمة الافتراضية: ١.٠ (بدون تغيير).
  • الحد الأقصى للرموز الجديدة: الحد الأقصى لطول النص الناتج، والذي يتحكم في الحد الأعلى لعدد الكلمات في محتوى الإخراج.
  • أعلى p (أخذ العينات النووية): معلمة أخذ العينات النووية التي تختار مجموعة الكلمات الدنيا باحتمالية تراكمية p لأخذ العينات للتحكم في تنوع الناتج.
  • أعلى-ك: عينة من الكلمات المرشحة (ك) ذات الاحتمالية الأعلى. كلما كبرت القيمة، زادت عشوائية النتائج؛ وكلما صغرت القيمة، زادت دقة النتائج.
  • درجة الحرارة: تتحكم في عشوائية النص المُولَّد. القيم الأعلى تُنتج نتائج أكثر عشوائية وتنوعًا، بينما تُنتج القيم الأدنى نتائج أكثر تحديدًا ومحافظة.
  • عقوبة التكرار: قيمة أكبر من ١.٠ تُقلل من توليد المحتوى المكرر. كلما زادت القيمة، زادت العقوبة.
  • إعدادات تصدير PDF:
    • حجم الخط: حجم الخط للنص في ملف PDF، والذي يتحكم في قابلية قراءة المستند المُصدَّر.
    • المسافة بين السطور: المسافة بين السطور بين الفقرات في ملف PDF تؤثر على جمالية المستند وسهولة قراءته.
    • محاذاة النص: محاذاة النص في ملف PDF، بما في ذلك المحاذاة إلى اليسار، أو المحاذاة إلى الوسط، أو المحاذاة إلى اليمين، أو التبرير.
    • حجم الصورة في ملف PDF: حجم الصورة المضمنة في ملف PDF، بما في ذلك الخيارات الصغيرة والمتوسطة والكبيرة.

2. README.md

3. معاينة PDF

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{points-reader,
  title={POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion},
  author={Liu, Yuan and Zhongyin Zhao and Tian, Le and Haicheng Wang and Xubing Ye and Yangxiu You and Zilin Yu and Chuhan Wu and  Zhou, Xiao and Yu, Yang and Zhou, Jie},
  journal={EMNLP2025},
  year={2025}
}

@article{liu2024points1,
title={POINTS1. 5: Building a Vision-Language Model towards Real World Applications},
author={Liu, Yuan and Tian, Le and Zhou, Xiao and Gao, Xinyu and Yu, Kavio and Yu, Yang and Zhou, Jie},
journal={arXiv preprint arXiv:2412.08443},
year={2024}
} @article{liu2024points,
title={POINTS: Improving Your Vision-language Model with Affordable Strategies},
author={Liu, Yuan and Zhao, Zhongyin and Zhuang, Ziyuan and Tian, Le and Zhou, Xiao and Zhou, Jie},
journal={arXiv preprint arXiv:2409.04828},
year={2024}
}
@article{liu2024rethinking,
title={Rethinking Overlooked Aspects in Vision-Language Models},
author={Liu, Yuan and Tian, Le and Zhou, Xiao and Zhou, Jie},
journal={arXiv preprint arXiv:2405.11850},
year={2024}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
POINTS-Reader: نموذج خفيف الوزن لرؤية المستندات واللغة مع بنية متكاملة خالية من التقطير | الدروس | HyperAI