HyperAIHyperAI

Command Palette

Search for a command to run...

بايدو تُحدث نقلة نوعية! نموذج التعرف الضوئي على الحروف (OCR)، PaddleOCR-VL، يتخطى قيود أساليب التحليل والتكامل؛ فمجموعة بيانات التعرف على عواطف الوجه تُمكّن الذكاء الاصطناعي من فهم تعابير الوجه.

Featured Image

يُشكّل تعقيد محتوى المستندات الحديثة تحدياتٍ أكبر لتقنيات التحليل: إذ غالبًا ما تتضمن المستندات نصوصًا طويلة، ومخططاتٍ مُعقّدة، وصيغًا احترافية، ولغاتٍ متعددة، وقد تكون تخطيطاتها غير منتظمة. لذلك، أصبح تحليل المستندات بكفاءة ودقة تقنيةً أساسيةً لا غنى عنها.

تتبع الأبحاث الحالية في مجال تحليل المستندات بشكل أساسي مسارين تقنيين:أحد الأساليب هو استخدام طريقة خط الأنابيب المبنية على نموذج الخبراء المعياري.وعلى الرغم من أن هذه الطرق تعمل بثبات في مهام محددة، إلا أن عيوبها أصبحت واضحة بشكل متزايد: فبنية النظام معقدة، وتتراكم الأخطاء على طول مراحل المعالجة، وقدراتها لها حد أقصى متأصل عند معالجة المستندات المعقدة للغاية.الذي - التيثانياً، نهج شامل يعتمد على نموذج كبير متعدد الوسائط.على الرغم من تصميمه لتبسيط سير العمل وتحقيق التحسين الشامل، إلا أنه غالبًا ما يواجه مشاكل في التطبيقات العملية، مثل عدم انتظام ترتيب النصوص وإنشاء محتوى "وهمي" عند التعامل مع مستندات طويلة أو تخطيطات معقدة. علاوة على ذلك، فإن التكلفة الحسابية الباهظة لمخرجات التسلسل الطويل تحد من إمكانية نشره في سيناريوهات واقعية.

بناءً على هذه التحديات الواقعيةأطلقت شركة Baidu برنامج PaddleOCR-VL، وهو نموذج تحليل مستندات عالي الأداء وذو كفاءة في استخدام الموارد ويعتمد على نموذج لغوي مرئي.المكون الأساسي لهذا النموذج هو نموذج اللغة البصرية المدمج والقوي PaddleOCR-VL-0.9B، الذي يدمج مُشفّرًا بصريًا بدقة ديناميكية على غرار NaViT مع نموذج اللغة ERNIE-4.5-0.3B، مما يُتيح التعرّف الدقيق على العناصر. يدعم هذا النموذج المبتكر بكفاءة 109 لغات، ويتميز بالتعرّف على العناصر المعقدة، مثل النصوص والجداول والصيغ والرسوم البيانية، مع الحفاظ على استهلاك منخفض للغاية للموارد.

من خلال التقييم الشاملحقق PaddleOCR-VL أداءً متطورًا (SOTA) في كل من تحليل المستندات على مستوى الصفحة ومهام التعرف على مستوى العناصر.ويظهر قدرة تنافسية قوية بالمقارنة مع نماذج اللغة البصرية الرائدة، مما يجعله أكثر ملاءمة للنشر والتطبيق في السيناريوهات الواقعية.

يتضمن موقع HyperAI الآن "PaddleOCR-VL: تحليل المستندات متعدد الوسائط"، لذا جربه!

الاستخدام عبر الإنترنت:https://go.hyper.ai/3OjbB

نظرة عامة سريعة على تحديثات الموقع الرسمي لـ hyper.ai من 17 نوفمبر إلى 21 نوفمبر:

* مجموعات البيانات العامة عالية الجودة: 6

* مجموعة مختارة من الدروس التعليمية عالية الجودة: 3

* الأوراق الموصى بها لهذا الأسبوع: 5

* تفسير المقالات المجتمعية: 5 مقالات

* إدخالات الموسوعة الشعبية: 5

أهم المؤتمرات التي لها مواعيد نهائية في ديسمبر: 2

قم بزيارة الموقع الرسمي:هايبر.اي

مجموعات البيانات العامة المختارة

1. مجموعة بيانات HumanSense Benchmark

معيار هيومن سينس هو مجموعة بيانات مرجعية لتقييم الإدراك البشري، أصدرتها جامعة شيان جياوتونغ بالتعاون مع مجموعة أنت. يهدف إلى قياس قدرات التفاعل الواقعي للنماذج بشكل شامل من خلال دمج المعلومات متعددة الوسائط، مثل الصورة والصوت والنص.

الاستخدام المباشر:https://go.hyper.ai/9drzT

2. مجموعة بيانات تقييم تحرير الصور EditReward-Bench

EditReward-Bench هو معيار تقييم منهجي لنماذج مكافآت تحرير الصور، صدر بالتعاون بين جامعة العلوم والتكنولوجيا الصينية، ومعهد الأتمتة التابع للأكاديمية الصينية للعلوم، وأكاديمية بكين للذكاء الاصطناعي. يهدف إلى تقييم شامل لقدرة نماذج المكافآت على التمييز من ثلاثة أبعاد أساسية: الامتثال للتعليمات، والحفاظ على الاتساق، والجودة الشاملة. تحتوي مجموعة البيانات على 3072 نقطة بيانات لمقارنة التفضيلات، مُعلّق عليها من قِبل خبراء، وتغطي بشكل شامل سيناريوهات تطبيقية واقعية شائعة ومعقدة.

الاستخدام المباشر:https://go.hyper.ai/OEVRn

3. مجموعة بيانات معيارية للتقييم الكامل UNO-Bench

UNO-Bench، الذي أصدره فريق LongCat في Meituan، هو أول معيار تقييم موحد متعدد الوسائط مصمم لتقييم قدرات الفهم الأحادي والمتعدد الوسائط بكفاءة. تحتوي مجموعة البيانات على 1250 عينة متعددة الوسائط مع قابلية حل 98% متعددة الوسائط، و2480 عينة أحادية الوسائط، تغطي 44 نوعًا من المهام و5 مجموعات من الوسائط. تتضمن مجموعة البيانات أيضًا نموذج تقييم عام يدعم التقييم الآلي لستة أنواع من الأسئلة، مما يوفر معيار تقييم موحدًا للمهام متعددة الوسائط.

الاستخدام المباشر:https://go.hyper.ai/gIcIK

4. مجموعة بيانات تقييم الاستدلال الكلامي VERA

VERA هي مجموعة بيانات كلامية واسعة النطاق ومتعددة المهام، أصدرتها جامعة ديوك بالتعاون مع Adobe. صُممت لتقييم قدرات الاستدلال للنماذج الكبيرة في ظل ظروف الصوت الأصلي. تُعرض جميع العينات بصيغة الكلام الأصلي، ويتم توليف الصوت بواسطة Boson Higgs Audio 2 لضمان أداء كلامي متسق وواضح وعالي الجودة.

الاستخدام المباشر:https://go.hyper.ai/AfgW5

5. مجموعة بيانات التعرف على عواطف الوجه

التعرف على انفعالات الوجه هو مجموعة بيانات لمهام تصنيف انفعالات الوجه، مصممة لتدريب وتقييم نماذج التعرف على الانفعالات المختلفة. تغطي مجموعة البيانات سبعة انفعالات أساسية: الغضب، الاشمئزاز، الخوف، السعادة، الحياد، الحزن، والمفاجأة. تستند البيانات إلى مجموعات بيانات FER2013 وRAF-DB المتاحة للجمهور، وتُدمج منها، وتُرشّح صور الوجوه باستخدام HaarCascade (بمستوى ثقة يقارب 0.8) مع خضوعها لإزالة الضوضاء وتحسين الجودة.

الاستخدام المباشر:https://go.hyper.ai/z5x5N

مثال لمجموعة البيانات

6. مجموعة بيانات نتائج إرساء AutoDock-GPU_Output

AutoDock-GPU_Output هو نموذج لسجل مخرجات الإرساء (.dlg) يُولّده تشغيل AutoDock-GPU. يحتوي على معلومات مثل طاقة الربط، وتجميع التكوينات، وموقف الربيطة النهائي. يُستخدم كمجموعة بيانات مرجعية لتحليل نتائج الإرساء، ويمكن استخدامه لتعلم تحليل النتائج والتحقق من صحة تكوين البيئة.

الاستخدام المباشر:https://go.hyper.ai/zz7wV

دروس تعليمية عامة مختارة

1. PaddleOCR-VL: تحليل المستندات متعدد الوسائط

PaddleOCR-VL هو نموذج متطور (SOTA) موفر للموارد، مصمم خصيصًا لمهام تحليل المستندات. مكونه الأساسي هو PaddleOCR-VL-0.9B، وهو نموذج لغة بصرية (VLM) مدمج وقوي، يدمج مُشفّرًا بصريًا بدقة ديناميكية على غرار NaViT مع نموذج اللغة ERNIE-4.5-0.3B، مما يتيح التعرف الدقيق على العناصر. يدعم هذا النموذج المبتكر 109 لغات بكفاءة، ويتميز بالتعرف على العناصر المعقدة مثل النصوص والجداول والصيغ والرسوم البيانية، مع الحفاظ على استهلاك منخفض للغاية للموارد.

تشغيل عبر الإنترنت:https://go.hyper.ai/3OjbB

أمثلة التأثير

2. LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

LongCat-Video هو نموذج مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي، يضم 13.6 مليار معلمة، طوّرها فريق LongCat في Meituan. يتميز هذا النموذج ببراعة في مهام مثل تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، وتكملة الفيديو، وخاصةً في توليد مقاطع فيديو طويلة عالية الجودة بكفاءة. ومن خلال تحسين التعلم التعزيزي متعدد المكافآت (GRPO)، يُظهر النموذج أداءً يُضاهي نماذج توليد الفيديو مفتوحة المصدر الرائدة والحلول التجارية المتطورة في اختبارات المقارنة الداخلية والعامة.

تشغيل عبر الإنترنت:https://go.hyper.ai/3DWbb

أمثلة التأثير

3. نشر VibeThinker-1.5B باستخدام vLLM + OpenWebUI

VibeThinker-1.5B هو أول نموذج مفتوح المصدر واسع النطاق يُصدره Weibo AI. لا تعتمد قدراته القوية على مجرد تراكم المعلمات، بل تنبع من مفهوم تدريب SSP الذي اقترحه مطورو Weibo. يشجع هذا المفهوم النموذج على استكشاف جميع مسارات الحلول الممكنة خلال مرحلة التعلم، بدلاً من التركيز فقط على الدقة. بعد ذلك، يُستخدم التعلم التعزيزي لتحسين الاستراتيجية بكفاءة، وتحديد المسار الصحيح بدقة، وتعزيز أداء النموذج إلى أقصى حد.

تشغيل عبر الإنترنت:https://go.hyper.ai/PAcy1

أمثلة التأثير

توصيات الورقة البحثية لهذا الأسبوع

1. كاندينسكي 5.0: مجموعة من النماذج الأساسية لتوليد الصور والفيديو

يُقدّم هذا التقرير Kandinsky 5.0، وهي مجموعة من النماذج الأساسية لتوليف الصور عالية الدقة ومقاطع الفيديو التي تبلغ مدتها 10 ثوانٍ. يتألف الإطار من ثلاث مجموعات نماذج أساسية: Kandinsky 5.0 Image Lite - مجموعة من نماذج توليد الصور تحتوي على 6 مليارات مُعامل؛ وKandinsky 5.0 Video Lite - نموذج خفيف وفعال لتوليد النصوص إلى الفيديو والصور إلى الفيديو، يحتوي على ملياري مُعامل؛ وKandinsky 5.0 Video Pro - نموذج يحتوي على 19 مليار مُعامل، قادر على تحقيق جودة إنتاج فيديو استثنائية.

رابط الورقة:https://go.hyper.ai/cpPY4

2. P1: إتقان أولمبياد الفيزياء باستخدام التعلم التعزيزي

تقترح هذه الورقة سلسلة P1 من نماذج الاستدلال الفيزيائي مفتوحة المصدر، والتي تُدرّب بالكامل من خلال التعلم التعزيزي. من بينها، يُعدّ P1-235B-A22B أول نموذج مفتوح المصدر يحقق أداءً بمستوى الميدالية الذهبية في أولمبياد الفيزياء الدولي لعام 2025 (IPhO 2025)، وقد فاز باثنتي عشرة ميدالية ذهبية في ثلاث عشرة مسابقة فيزياء دولية وإقليمية في عامي 2024 و2025.

رابط الورقة:https://go.hyper.ai/434Df

3. VIDEOP2R: فهم الفيديو من الإدراك إلى التفكير

تقترح هذه الورقة البحثية VideoP2R، وهو إطار عمل إجرائي مبتكر لضبط التعلم المعزز بالفيديو، يُحسّن قدرات التفكير المنطقي بالفيديو من خلال نمذجة الإدراك والتفكير المنطقي كعمليتين مستقلتين. تُظهر التجارب المكثفة أن VideoP2R يحقق أداءً متطورًا في ستة من أصل سبعة معايير للتفكير المنطقي وفهم الفيديو.

رابط الورقة:https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni: نموذج كبير متعدد الوسائط متعدد اللغات مع MoE متقدم والتدريب والبيانات

تُقدّم هذه الورقة البحثية Uni-MoE 2.0، وهو نموذج كبير متعدد الوسائط (OLM) مفتوح المصدر بالكامل وعام الأغراض. يُسهم هذا النموذج بشكل كبير في التطور التكنولوجي لـ Uni-MoE في قدرات الفهم والاستدلال والتوليد متعددة الوسائط القائمة على اللغة. تُظهر التقييمات الشاملة التي شملت 85 معيارًا أن هذا النموذج يُحقق أو يُقارب أداء أحدث طراز (SOTA) لنماذج OLM الرائدة الحالية. في أكثر من 50 من أصل 76 معيارًا، يتفوق هذا النموذج على Qwen2.5-Omni، الذي يحتوي على مجموعة بيانات تدريب تضم 1.2 تريليون رمز.

رابط الورقة:https://go.hyper.ai/wETcQ

5. التفكير الجاد: تكرارات كامنة انتقائية لتحسين نماذج اللغة المنطقية

تقترح هذه الورقة البحثية آلية التفكير الضمني الديناميكية "التفكير العميق" (TaH)، التي تُجري تكرارات عميقة فقط على الرموز التي يصعب التنبؤ بها. تُقدم هذه الطريقة صانع قرار عصبيًا خفيف الوزن يُفعّل التكرارات الضمنية فقط على الرموز التي قد يكون فيها الانتشار الأمامي القياسي غير صحيح. أثناء عملية التكرار الضمني، تُحوّل وحدة التكيف منخفض الرتبة (LoRA) هدف LLM من التنبؤ العام بالرمز التالي إلى التركيز على ضبط الرموز الصعبة بدقة.

رابط الورقة:https://go.hyper.ai/jp3xw

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:https://go.hyper.ai/iSYSZ

تفسير مقالة المجتمع

هل يتفوق الابتكار متعدد التخصصات على القدرات البشرية؟ يطرح علماء الذكاء الاصطناعي فرضيات، ويجرون تجارب، ويشاركون في مؤتمرات مرموقة، مُبشّرين بنموذج جديد للبحث العلمي.

في أغسطس 2024، أطلقت شركة ساكانا للذكاء الاصطناعي، التي أسسها ليون جونز، أحد مؤلفي ورقة "المتحول"، أول "عالم ذكاء اصطناعي" في العالم، قادرًا على طرح أسئلة بحثية، وتصميم التجارب، وكتابة الأوراق البحثية بشكل مستقل، مما أحدث ضجة في المجتمع العلمي العالمي. من التجارب الآلية إلى الاكتشافات الذاتية، يقفز الذكاء الاصطناعي من دور مساعد باحث إلى دور "باحث مشارك". كيف سيُعاد صياغة مستقبل العلوم مع دخول الذكاء الاصطناعي إلى المختبرات؟

شاهد التقرير الكامل:https://go.hyper.ai/ICpf1

دورة تعليمية عبر الإنترنت | كشف الأجسام يدخل عصر "الوعي العالمي": جامعة تسينغهوا وجهات أخرى تُصدر YOLOv13، مُحققةً إنجازاتٍ في السرعة والدقة

اقترح فريق بحثي مشترك، مؤلف من خبراء من جامعة تسينغهوا وجامعة تاييوان للتكنولوجيا وجامعة شيان جياوتونغ، نموذجًا جديدًا لكشف الأجسام - YOLOv13 - يُوسّع نطاق "نمذجة الصلة" من البنى الثنائية إلى البنى عالية الرتبة الحقيقية. تُظهر النتائج أن YOLOv13 يُحقق تحسينات كبيرة على MS COCO، بدءًا من النماذج الصغيرة (سلسلة N) وصولًا إلى النماذج الكبيرة، محققًا أداء كشف متطورًا مع عدد أقل من المعلمات وFLOPs. وبشكل أكثر تحديدًا، يُحسّن YOLOv13-N أداء mAP بمقدار 3.01 TP3T مقارنةً بـ YOLOv11-N، وبمقدار 1.51 TP3T مقارنةً بـ YOLOv12-N.

شاهد التقرير الكامل:https://go.hyper.ai/W4vib

٣. إنجازٌ كبير في تحديد المواقع الجغرافية للصور! اقترحت جامعة مين، وجوجل، وOpenAI، وجهات أخرى، إطار عمل LocDiff، الذي يُحقق تحديدًا دقيقًا للموقع العالمي دون الحاجة إلى شبكات أو مكتبات مرجعية.

اقترح فريق مشترك من جامعة مين وجوجل وجامعة هارفارد "دالة ديراك التوافقية الكروية (SHDD)" وإطار عملها المتكامل LocDiff. من خلال بناء طريقة ترميز وبنية انتشار مُكيّفة مع الهندسة الكروية، تُحقق الدالة تحديدًا دقيقًا للمواقع دون الاعتماد على شبكات مُعدّة مسبقًا أو مكتبات صور خارجية، مما يُتيح مسارًا تقنيًا رائدًا في هذا المجال.

شاهد التقرير الكامل:https://go.hyper.ai/Ucsq8

4. من 9,874 ورقة بحثية إلى 15,000 بنية بلورية، يعيد MOF-ChemUnity بناء المعرفة الشاملة لـ MOF، مما يدفع اكتشاف المواد إلى عصر "الذكاء الاصطناعي القابل للتفسير".

اقترح فريق بحثي من جامعة تورنتو ومركز أبحاث ابتكار الطاقة النظيفة التابع للمجلس الوطني للبحوث في كندا، MOF-ChemUnity، وهو رسم بياني معرفي منظم وقابل للتطوير والتوسيع. تستخدم هذه الطريقة LLM لإنشاء مطابقة موثوقة بين أسماء MOF ومرادفاتها في المراجع العلمية والبنى البلورية المسجلة في CSD، مما يُسهم في إزالة الغموض بين أسماء MOF ومرادفاتها وبنى البلورات.

شاهد التقرير الكامل:https://go.hyper.ai/cRR1o

5. من المغاسل إلى جائزة الملكة إليزابيث للهندسة، تتحدى في-في لي أسطورة التكنولوجيا في وادي السيليكون، من خلال التركيز على المخاطر غير الإنسانية للذكاء الاصطناعي.

في ربيع عام ٢٠٢٥، مُنحت فاي فاي لي جائزة الملكة إليزابيث للهندسة، تقديرًا لمساهماتها التأسيسية في مجال الرؤية الحاسوبية والتعلم العميق. بصفتها شخصيةً رئيسيةً في مشروع ImageNet، كانت رائدةً في أساليب التعرف البصري القائمة على البيانات، واقترحت فلسفةً للذكاء الاصطناعي "تتمحور حول الإنسان"، مُحافظةً على اليقظة فيما يتعلق بأخلاقيات الذكاء الاصطناعي، والقيمة الاجتماعية، وخطر نزع الصفة الإنسانية في خضم موجة التسويق التجاري في وادي السيليكون. ومع ذلك، فإن كونها من الأقليات يضعها في موقفٍ حساس بين الإنجازات العلمية والممارسات الصناعية، مما يُثير جدلًا مستمرًا.

شاهد التقرير الكامل:https://go.hyper.ai/bRu25

مقالات موسوعية شعبية

1. دال-إي

2. الشبكات الفائقة

3. جبهة باريتو

4. الذاكرة طويلة المدى ثنائية الاتجاه (Bi-LSTM)

5. اندماج الرتب المتبادلة

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

أفضل مؤتمر مع الموعد النهائي في ديسمبر

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1800 مجموعة بيانات عامة

* يتضمن أكثر من 600 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 200 حالة بحثية من AI4Science

* يدعم البحث عن أكثر من 600 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai