HyperAIHyperAI

يتفوق MiniCPM-V 4.0 على GPT-4.1-mini في الأداء، ويصل إلى مستويات جديدة في نمذجة الصور على الجهاز؛ ويجعل HelpSteer3 استجابات الذكاء الاصطناعي أقرب إلى التفكير البشري.

特色图像

يُسهم التطور التكنولوجي لنماذج اللغات الكبيرة متعددة الوسائط (MLLMs) في تطوير منظومة الذكاء الاصطناعي. ويشهد طلب المستخدمين على التفاعل الفوري عبر الأجهزة المحمولة، مثل الهواتف والأجهزة اللوحية، نموًا ملحوظًا. ومع ذلك، فبينما تُقدم النماذج الكبيرة التقليدية أداءً ممتازًا، إلا أنها مُثقلة بعدد كبير من المعلمات، مما يُصعّب نشرها وتشغيلها على الجهاز في سيناريوهات الأجهزة المحمولة وغير المتصلة بالإنترنت.لا تزال النماذج الكبيرة على الحافة تتطلب الدعم والتحسين من جانب السحابة عند المشاركة في بعض المهام المعقدة، ولا يزال هناك مجال للتحسين في أداء الحافة والقدرات المتعددة الوسائط.

وفي هذا السياق،أطلق مختبر معالجة اللغة الطبيعية بجامعة تسينغهوا وشركة Mianbi Intelligence بشكل مشترك النموذج الشامل الفعال MiniCPM-V 4.0.لا يقتصر هذا النموذج على ورث الأداء القوي لفهم الصور الفردية والمتعددة والفيديو من سابقه MiniCPM-V 2.6 فحسب، بل يتفوق أيضًا على النماذج الشائعة مثل GPT-4.1-mini-20250414 وQwen2.5-VL-3B-Instruct وInternVL2.5-8B في قدرات فهم الصور في تقييم OpenCompass. كما يحقق انخفاضًا في المعاملات بمقدار النصف إلى 4.1 مليار، مما يُخفّض عتبة النشر بشكل كبير.كما قام فريق البحث أيضًا بفتح المصدر لتطبيقات iOS لأجهزة iPhone وiPad في نفس الوقت، مما يسمح للمستخدمين بتجربة "إمكانات على مستوى السحابة وكفاءة على مستوى الحافة" على هواتفهم.

باعتباره استكشافًا مهمًا لـ MLLM من الجانب النهائي، يعزز MiniCPM-V 4.0 النشر الخفيف للمحطات لفتح مساحة تطوير أوسع ويوفر مثالاً جيدًا لتوسيع الوسائط الأخرى مثل الصوت والفيديو إلى الأجهزة الطرفية.

أطلق الموقع الرسمي لشركة HyperAI مؤخرًا إصدار "MiniCPM-V4.0: نموذج جهازي واسع النطاق وعالي الكفاءة". تفضلوا بتجربته!

الاستخدام عبر الإنترنت:https://go.hyper.ai/pZ5aZ

من 11 أغسطس إلى 15 أغسطس، إليك نظرة عامة سريعة على تحديثات الموقع الرسمي لـ hyper.ai:

* مجموعات البيانات العامة عالية الجودة: 10

* مجموعة مختارة من الدروس التعليمية عالية الجودة: 6

* الأوراق الموصى بها لهذا الأسبوع: 5

* تفسير المقالات المجتمعية: 5 مقالات

* إدخالات الموسوعة الشعبية: 5

* أفضل المؤتمرات مع الموعد النهائي في أغسطس: 2

قم بزيارة الموقع الرسمي:هايبر.اي

مجموعات البيانات العامة المختارة

1. مجموعة بيانات NuminaMath-LEAN للمسائل الرياضية

NuminaMath-LEAN هي مجموعة بيانات لمسائل رياضية، أصدرتها Numina وفريق Kimi بشكل مشترك. تهدف هذه المجموعة إلى توفير عبارات رسمية مُعلّقة يدويًا وبراهين لتدريب وتقييم نماذج إثبات النظريات الآلية. تحتوي مجموعة البيانات على 100,000 مسألة رياضية، بما في ذلك مسائل من مسابقات مرموقة مثل أولمبياد الرياضيات الدولي (IMO) وأولمبياد الرياضيات الأمريكي (USAMO).

الاستخدام المباشر:https://go.hyper.ai/YSJM2

2. مجموعة بيانات ضبط تعليمات الأمان Trendyol

Trendyol هي مجموعة بيانات لضبط تعليمات الأمان مصممة لتدريب مساعدي الذكاء الاصطناعي المتقدمين على الأمن السيبراني الدفاعي. تحتوي هذه المجموعة على 53,202 مثالًا لضبط التعليمات، تغطي أكثر من 200 مجال للأمن السيبراني، بما في ذلك التهديدات السحابية، وأمن الذكاء الاصطناعي/التعلم الآلي، وغيرها من تحديات الأمن الحديثة. توفر هذه المجموعة بيانات عالية الجودة لتدريب نماذج الذكاء الاصطناعي للأمن الدفاعي.

الاستخدام المباشر:https://go.hyper.ai/hfxLQ

3. مجموعة بيانات المشهد الداخلي ثلاثي الأبعاد InteriorGS

InteriorGS هي مجموعة بيانات ثلاثية الأبعاد لمشهد داخلي، مصممة للتغلب على قيود مجموعات بيانات المشهد الداخلي الحالية من حيث الاكتمال الهندسي، والتعليق الدلالي، وقدرات التفاعل المكاني. توفر مجموعة البيانات تمثيلات تشتت غاوسي ثلاثية الأبعاد عالية الجودة، بالإضافة إلى مربعات حدود دلالية على مستوى المثيل وخرائط إشغال توضح المناطق التي يمكن للوكلاء الوصول إليها.

الاستخدام المباشر:https://go.hyper.ai/8pxTq

مثال لمجموعة البيانات

4. مجموعة بيانات معيارية لتوليد النصوص باستخدام CognitiveKernel-Pro-Query

CognitiveKernel-Pro-Query هي مجموعة بيانات مرجعية لتوليد النصوص، أصدرتها Tencent، مصممة لتقييم أداء النماذج عند معالجة النصوص الطويلة. تحتوي مجموعة البيانات على أكثر من 10,000 نص طويل، تغطي تطبيقات متنوعة، مثل المقالات الإخبارية والوثائق التقنية والكتب.

الاستخدام المباشر:https://go.hyper.ai/onijU

5. مجموعة بيانات مراقبة الأرض المضمنة بالأقمار الصناعية

تضمين الأقمار الصناعية هو مجموعة بيانات لرصد الأرض أصدرتها جوجل. يهدف إلى توفير تمثيل جغرافي مكاني متعدد الاستخدامات، يدمج السياق المكاني والزماني والقياسي من مصادر متعددة لإنشاء خرائط وأنظمة مراقبة دقيقة وفعالة من النطاق المحلي إلى العالمي.

الاستخدام المباشر:https://go.hyper.ai/Yfw8K

مثال لمجموعة البيانات

6. مجموعة بيانات معيار فهم النصوص LongText-Bench

LongText-Bench هي مجموعة بيانات مرجعية لفهم النصوص، مصممة لتقييم قدرة النماذج على فهم النصوص الطويلة باللغتين الصينية والإنجليزية بدقة. تحتوي مجموعة البيانات على 160 سؤالًا لتقييم مهام عرض النصوص الطويلة، تغطي ثمانية سيناريوهات مختلفة (إشارات الطرق، والأشياء المُسمّاة، والمواد المطبوعة، وصفحات الويب، والشرائح، والملصقات، والعناوين الرئيسية، والحوارات).

الاستخدام المباشر:https://go.hyper.ai/k6Kj8

7. مجموعة بيانات القيادة الذاتية nuPlan

nuPlan هي مجموعة بيانات قيادة ذاتية أصدرتها Motional. تهدف إلى توفير إطار عمل لتطوير وتدريب المخططين قائم على التعلم الآلي، ومحاكي حلقة مغلقة خفيف الوزن، ومقاييس مخصصة لتخطيط الحركة، وأدوات تفاعلية لعرض النتائج. تحتوي مجموعة البيانات على 1200 ساعة من بيانات القيادة البشرية من أربع مدن في الولايات المتحدة وآسيا: بوسطن، وبيتسبرغ، ولاس فيغاس، وسنغافورة.

الاستخدام المباشر:https://go.hyper.ai/BcEC8

مثال لمجموعة البيانات

8. HelpSteer3 مجموعة بيانات التفضيلات البشرية

HelpSteer3 هي مجموعة بيانات تفضيلات بشرية أصدرتها NVIDIA. تهدف إلى تحسين استجابة النماذج لمطالبات المستخدم من خلال التغذية الراجعة البشرية وتقنيات التعلم التعزيزي. تحتوي مجموعة البيانات على 40,476 مثالاً للتفضيلات، يتضمن كل منها نطاقًا ولغة وسياقًا وردّين وتقييمًا عامًا للتفضيلات بين الردّين، وتقييمات فردية للتفضيلات من ثلاثة معلقين كحد أقصى.

الاستخدام المباشر:https://go.hyper.ai/hByqe

9. مجموعة بيانات تحرير الصور NHR-Edit

NHR-Edit هي مجموعة بيانات لتحرير الصور مصممة لدعم تدريب نماذج تحرير الصور العامة القادرة على اتباع تعليمات تحرير طبيعية متنوعة. تحتوي مجموعة البيانات على 286,608 صورة مصدرية فريدة و358,463 صورة ثلاثية لتحرير الصور. يحتوي كل مثال أيضًا على بيانات وصفية إضافية، مثل نوع التحرير وأسلوبه ودقة الصورة، مما يجعلها مناسبة لتدريب نماذج تحرير صور دقيقة وقابلة للتحكم.

الاستخدام المباشر:https://go.hyper.ai/LZtkd

مثال لمجموعة البيانات

10. مجموعة بيانات القيادة في الطقس القاسي A-WetDri

A-WetDri هي مجموعة بيانات للقيادة في ظروف جوية قاسية، مصممة لتحسين متانة نماذج إدراك القيادة الذاتية وتعميمها في ظل الظروف الجوية السيئة. تحتوي مجموعة البيانات على 42,390 عينة موزعة على أربعة سيناريوهات بيئية (المطر، الضباب، الليل، الثلج، والطقس الصافي) وفئات متنوعة من الأجسام (السيارات، الشاحنات، الدراجات، الدراجات النارية، المشاة، وإشارات المرور).

الاستخدام المباشر:https://go.hyper.ai/W2XE7

مثال لمجموعة البيانات

دروس تعليمية عامة مختارة

1. MiniCPM-V4.0: نموذج شامل وعالي الكفاءة وواسع النطاق

MiniCPM-V 4.0 هو نموذجٌ حاسوبيٌّ فائق الكفاءة، واسع النطاق، ومفتوح المصدر، طُوِّرَ بواسطة مختبر معالجة اللغات الطبيعية بجامعة تسينغهوا وشركة Mianbi Intelligence. في اختبار OpenCompass، تفوّق MiniCPM-V 4.0 على GPT-4.1-mini-20250414 وQwen2.5-VL-3B-Instruct وInternVL2.5-8B في قدرات فهم الصور.

تشغيل عبر الإنترنت:https://go.hyper.ai/pZ5aZ

عرض التأثير

٢. تحليل البيانات الاستكشافي | شرح قيم SHAP في XGBoost

يدور هذا البرنامج التعليمي حول مشكلة التصنيف المتعدد "التنبؤ بالأسمدة المثالية" ويقدم العملية الكاملة من البداية إلى النهاية من استكشاف البيانات إلى تدريب النموذج إلى التحليل القابل للتفسير.

تشغيل عبر الإنترنت:https://go.hyper.ai/41z6K

3. dots.ocr: نموذج تحليل المستندات متعدد اللغات

dots.ocr هو نموذج تحليل تخطيطات مستندات متعدد اللغات، طوره مختبر شياوهونغشو. يعتمد على نموذج لغة بصرية (VLM) ذي 1.7 مليار معلمة، ويدمج بين كشف التخطيط والتعرف على المحتوى، مع الحفاظ على ترتيب قراءة جيد. يوفر هذا النموذج بنية بسيطة وفعالة، ولا يتطلب سوى تغيير في موجه الإدخال لتبديل المهام. سرعة الاستدلال العالية تجعله مناسبًا لمجموعة متنوعة من سيناريوهات تحليل المستندات.

تشغيل عبر الإنترنت:https://go.hyper.ai/JewLR

أمثلة على الوثائق العامة

4. نشر منطق Phi-4-mini-flash باستخدام vLLM+Open-WebUI

Phi-4-mini-flash-reasoning هو نموذج مفتوح المصدر خفيف الوزن، أصدره فريق مايكروسوفت. يعتمد هذا النموذج على بيانات تركيبية، ويركز على بيانات استدلال عالية الجودة وكثيفة، وقد تم تحسينه بشكل أكبر لتحقيق قدرات استدلال رياضي أكثر تقدمًا. يدعم هذا النموذج، وهو جزء من عائلة نماذج Phi-4، أطوال سياق رمزية تصل إلى 64 ألفًا، ويستخدم بنية فك تشفير هجينة، بالإضافة إلى آلية انتباه ونموذج فضاء الحالة (SSM)، مما يحقق كفاءة استدلال ممتازة.

تشغيل عبر الإنترنت:https://go.hyper.ai/ENYcL

أمثلة المشاريع

5. llama.cpp+Open-WebUI ينشر gpt-oss-120b

gpt-oss-120b هو نموذج استدلال مفتوح المصدر أصدرته OpenAI، مصمم للاستدلال القوي، والمهام القائمة على الوكلاء، وسيناريوهات التطوير المتنوعة. يعتمد هذا النموذج على بنية MoE، ويدعم سياقًا بطول 128 كيلوبايت، ويتميز باستدعاء الأدوات، واستدعاءات الوظائف القصيرة، والاستدلال المتسلسل، والإجابة على أسئلة الصحة.

تشغيل عبر الإنترنت:https://go.hyper.ai/3BnDy

أمثلة المشاريع

6. llama.cpp+Open-WebUI ينشر gpt-oss-20b

gpt-oss-20b هو نموذج استدلال مفتوح المصدر أصدرته OpenAI. وهو مناسب للتطبيقات منخفضة الكمون، أو المحلية، أو المتخصصة. يعمل بسلاسة على الأجهزة الاستهلاكية (مثل أجهزة الكمبيوتر المحمولة وأجهزة الحافة)، بأداء يُضاهي أداء o3‑mini.

تشغيل عبر الإنترنت:https://go.hyper.ai/28FXJ

أمثلة المشاريع

توصيات الورقة البحثية لهذا الأسبوع

1. ReasonRank: تمكين تصنيف المقطع من خلال قدرة استدلالية قوية

نظرًا لندرة بيانات التدريب عالية الاستدلال، يُعاني مُعيدو التصنيف الحاليون من ضعف الأداء في العديد من سيناريوهات التصنيف المعقدة، ولا تزال قدراتهم على التصنيف في مراحلها الأولى من التطوير. تقترح هذه الورقة إطار عمل آليًا لتوليف بيانات التدريب عالية الاستدلال لأول مرة. يستخرج هذا الإطار استعلامات التدريب والفقرات من نطاقات متعددة، ويستخدم نموذج DeepSeek-R1 لإنشاء علامات تدريب عالية الجودة. علاوة على ذلك، صُممت آلية لتصفية البيانات ذاتية الاتساق لضمان جودة البيانات.

رابط الورقة:https://go.hyper.ai/nmaou

2. WideSearch: مقارنة أداء البحث عن المعلومات على نطاق واسع من خلال Agentic

تُقدّم هذه الورقة معيارًا جديدًا، WideSearch، مُصمّم لتقييم موثوقية الوكلاء في مهام جمع البيانات واسعة النطاق. يتكوّن من 200 سؤال مُختار بعناية من أكثر من 15 مجالًا مختلفًا، استنادًا إلى استعلامات المستخدمين الفعلية. تتطلّب كل مهمة من الوكيل جمع كميات كبيرة من المعلومات الدقيقة وتنظيمها في مُخرَجات واضحة البنية.

رابط الورقة:https://go.hyper.ai/87pbh

3. WebWatcher: فتح آفاق جديدة لوكيل البحث العميق في الرؤية واللغة

تقدم هذه الورقة البحثية WebWatcher، وهو وكيل بحث عميق متعدد الوسائط يتمتع بقدرات مُحسّنة على التفكير البصري واللغوي. يُحقق هذا الوكيل تدريبًا فعالًا من البداية الباردة من خلال مسارات متعددة الوسائط اصطناعية عالية الجودة، ويجمع بين أدوات متعددة للتفكير العميق، ويُحسّن التعميم من خلال التعلم التعزيزي.

رابط الورقة:https://go.hyper.ai/n9IKZ

4. Matrix-3D: توليد عالم ثلاثي الأبعاد قابل للاستكشاف في جميع الاتجاهات

تقترح هذه الورقة إطار عمل Matrix-3D، الذي يستخدم تمثيلًا بانوراميًا لتوليد عوالم ثلاثية الأبعاد واسعة النطاق وقابلة للاستكشاف بالكامل. يجمع هذا الإطار بين توليد الفيديو المشروط وتقنيات إعادة بناء الصور البانورامية ثلاثية الأبعاد. درّب الباحثون أولًا نموذج انتشار فيديو بانورامي موجه بمسار، مُصمم على عرض شبكي للمشهد، لتحقيق توليد فيديو عالي الجودة ومتسق هندسيًا.

رابط الورقة:https://go.hyper.ai/ojvKE

5. Voost: محول انتشار موحد وقابل للتطوير للتجربة والاختبار الافتراضيين ثنائيي الاتجاه

يهدف التجريب الافتراضي إلى توليد صور واقعية لشخص يرتدي ثوبًا مستهدفًا، إلا أن النمذجة الدقيقة للتوافق بين الثوب وجسم الإنسان لا تزال تُمثل تحديًا مستمرًا، لا سيما مع وجود اختلافات في الوضعية والمظهر. في هذه الورقة، نقترح إطار عمل موحدًا وقابلًا للتطوير، يُسمى Voost، يتعلم بشكل مشترك مهام التجريب الافتراضي عبر محول انتشار واحد.

رابط الورقة:https://go.hyper.ai/qCCaH

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:https://go.hyper.ai/iSYSZ

تفسير مقالة المجتمع

1. مع تغطية ما يقرب من 15000 نوع، أصدرت Google DeepMind برنامج Perch 2.0، والذي يعمل على تحديث أحدث التقنيات في التصنيف والكشف الحيوي الصوتي.

أصدرت جوجل ديب مايند وجوجل ريسيرش إصدار Perch 2.0، مما يرتقي بأبحاث الصوتيات الحيوية إلى آفاق جديدة. مقارنةً بسابقه، يُركز Perch 2.0 على تصنيف الأنواع كمهمة تدريب أساسية. فهو لا يقتصر على دمج بيانات تدريب أكثر من مجموعات غير الطيور فحسب، بل يستخدم أيضًا استراتيجيات جديدة لزيادة البيانات وأهدافًا تدريبية. وقد أدى ذلك إلى نتائج حديثة في كلٍّ من معايير الصوتيات الحيوية BirdSET وBEANS.

شاهد التقرير الكامل:https://go.hyper.ai/B7ZUk

2. برنامج تعليمي عبر الإنترنت: MediCLIP يصل إلى أحدث التقنيات في اكتشاف الشذوذ وتحديد موقعه باستخدام الحد الأدنى من بيانات الصور الطبية فقط

اقترح فريق بحثي من جامعة بكين برنامج MediCLIP، وهو حل فعّال لكشف التشوهات في الصور الطبية باستخدام عدد قليل من اللقطات. يتطلب هذا الحل عددًا محدودًا من الصور الطبية الطبيعية، مما يُحقق أداءً رائدًا في مهام كشف التشوهات وتحديد موقعها. كما يكشف بفعالية عن أمراض مختلفة عبر مجموعة واسعة من أنواع الصور الطبية، مُظهرًا قدرات تعميم مذهلة من الصفر.

شاهد التقرير الكامل:https://go.hyper.ai/VAhFb

٣. هل يفقد الباحثون "موطنهم السعيد"؟ أُغلقت منصة "ورقة مع الكود"، ولم يُعجب مستخدمو الإنترنت بالقسم الجديد لـ"وجه العناق".

توقف موقع Paper With Code رسميًا عن العمل، وعبّر مستخدموه المتعمقون حول العالم عن رأيهم. من جهة، أشادوا بأهمية الموقع في أبحاث التعلم الآلي، ومن جهة أخرى، أعربوا عن احتياجات حقيقية - فبالإضافة إلى التوافق بين الأوراق البحثية والأكواد مفتوحة المصدر، تُعد وظائف مثل SOTA وقوائم المتصدرين بنفس القدر من الأهمية.

شاهد التقرير الكامل:https://go.hyper.ai/poRWa

٤. انخفاض ملحوظ في تباين النتائج! أصدرت جامعة كاليفورنيا، لوس أنجلوس، نموذج انتشار جسر براوني ثنائي الاتجاه لتحسين إمكانية تكرار نتائج التلوين الافتراضي.

لتناول مشكلة التلوين الهيستوكيميائي في مطيافية الكتلة التصويرية، اقترح فريق البحث في جامعة كاليفورنيا في لوس أنجلوس طريقة تلوين هيستولوجي افتراضية تعتمد على نموذج الانتشار، والتي يمكنها تعزيز الدقة المكانية وإدخال تباين مورفولوجيا الخلايا رقميًا في صور مطيافية الكتلة للأنسجة البشرية الخالية من العلامات، وبالتالي تحقيق التنبؤ بالبنية المرضية لأنسجة الخلايا عالية الدقة بناءً على بيانات IMS منخفضة الدقة.

شاهد التقرير الكامل:https://go.hyper.ai/gcZ5U

طورت شركة Ainnova Tech منصة كشف في 3 ثوانٍ بدقة تتجاوز 90%. وقد حصلت خطة تجاربها السريرية على توجيهات من إدارة الغذاء والدواء الأمريكية.

قامت شركة Ainnova Tech، وهي شركة متخصصة في تكنولوجيا الرعاية الصحية، ببناء منصتها Vision AI، مستفيدةً من تقنية تشخيص ذكية قائمة على صور قاع العين. تستطيع هذه المنصة الكشف عن اعتلال الشبكية السكري (بدقة تتجاوز 90.1% من TP3T)، ومخاطر القلب والأوعية الدموية، وأمراض أخرى متعددة الأجهزة في ثوانٍ. تخدم Ainnova Tech أكثر من 20 دولة، وقد أكملت بنجاح اجتماع ما قبل التقديم مع إدارة الغذاء والدواء الأمريكية في يوليو 2025، وأطلقت الآن نموذج فحص مجاني في أمريكا اللاتينية، مما يُعزز الابتكار في التشخيص المبكر للأمراض المزمنة.

شاهد التقرير الكامل:https://go.hyper.ai/Ete2g

مقالات موسوعية شعبية

1. دال-إي

2. دمج الفرز المتبادل RRF

3. جبهة باريتو

4. فهم اللغة متعدد المهام على نطاق واسع (MMLU)

5. التعلم التبايني

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!