HyperAI

5.2 ألف نجمة! لقد أصبح لدينا هنا مبتكر خارق نجح في حل معضلة التعرف الضوئي على الحروف؛ النموذج الطبي متعدد اللغات مفتوح المصدر، ومجموعات البيانات المرجعية والمعيارية متاحة للتنزيل

特色图像

في عصرنا الحالي من التطور الرقمي السريع، وعلى الرغم من أن تقنية التعرف الضوئي على الحروف (OCR) أصبحت شائعة، إلا أن هناك العديد من الاختناقات. عند مواجهة مواقف معقدة ومتغيرة، ستقل دقة التعرف على نماذج OCR التقليدية بشكل كبير، كما أن خطوات تدفق المعالجة والتشغيل مرهقة للغاية، مما يقلل بشكل كبير من كفاءة العمل.

تم مؤخرًا إطلاق أول نموذج OCR شامل في العالم GOT-OCR-2.0 رسميًا كمصدر مفتوح! إنه يحل القيود التي يفرضها التعرف الضوئي على الحروف التقليدي من حيث جودة الصورة الرديئة والخلفية المعقدة والتعرف على النص المكتوب بخط اليد.يوفر النموذج الآن برنامجًا تعليميًا تجريبيًا على الموقع الرسمي لـ hyper.ai. يمكنك تخطي خطوات التثبيت المعقدة والبدء فيها مباشرة عن طريق استنساخها.

تشغيل عبر الإنترنت:https://go.hyper.ai/JVVKQ

من 1 أكتوبر إلى 12 أكتوبر، تحديثات الموقع الرسمي لـhyper.ai:

* مجموعة مختارة من الدروس التعليمية عالية الجودة: 3

* مجموعات البيانات العامة عالية الجودة: 10

* اختيار المقالات المجتمعية: 5 مقالات

* إدخالات الموسوعة الشعبية: 5

* أفضل المؤتمرات مع الموعد النهائي في أكتوبر: 5

قم بزيارة الموقع الرسمي:هايبر.اي

دروس تعليمية عامة مختارة

1. GOT-OCR-2.0 أول نموذج OCR شامل في العالم

GOT-OCR-2.0 هو نموذج موحد من البداية إلى النهاية يعتمد على نظرية التعرف الضوئي على الحروف العامة، مع التركيز على تحسين دقة وكفاءة التعرف الضوئي على الحروف (OCR). ويعتمد على بنية متكاملة قادرة على التعامل بكفاءة مع تنوع النصوص وتعقيدها. لا يدعم GOT-OCR 2.0 التعرف على نص المشهد فحسب، بل يمكنه أيضًا معالجة المستندات متعددة الصفحات، مما يوفر المزيد من المرونة في مجال التعرف الضوئي على الحروف. قم بتشغيل الحاوية وفقًا للبرنامج التعليمي وانسخ عنوان API مباشرةً لتجربة استنتاج النموذج.

الاستخدام المباشر:https://go.hyper.ai/JVVKQ

أمثلة التأثير

2. أداة إضاءة الصور IC-Light، واستبدال دمج الخلفية الطبيعية

IC-Light هو اختصار لـ Imposing Consistent Light (فرض الإضاءة المتسقة)، وهو مشروع يهدف إلى تحقيق إعادة إضاءة الصور من خلال نماذج التعلم الآلي. إنه يوفر نوعين رئيسيين من النماذج: نموذج الإضاءة المشروطة بالنص ونموذج الإضاءة المشروطة بالخلفية، والتي تضبط إضاءة الصورة الأمامية وفقًا لتلميح النص أو محتوى الخلفية على التوالي.

يمكن لهذا المشروع إنشاء واجهة تفاعلية أمامية من خلال واجهة Gradio. تم نشر النماذج والتبعيات ذات الصلة ويمكن البدء بها بنقرة واحدة.

الاستخدام المباشر:https://go.hyper.ai/1Y0PQ

أمثلة التأثير

3. عرض توضيحي لأداة استنساخ الصوت وتحويل النص إلى كلام في Fish Speech v1.4

Fish Speech هو نموذج تحويل النص إلى كلام (TTS) تم تطويره بواسطة Fish Audio في عام 2024 وهو قادر على توليد كلام عالي الجودة ويبدو طبيعيًا. بعد ترقيته إلى الإصدار v1.4، خضع هذا النموذج لحوالي 700000 ساعة من تدريب البيانات وهو الآن يتقن ثماني لغات بما في ذلك الصينية واليابانية والإنجليزية. إن قدراته على معالجة اللغة تقترب من المستويات البشرية، وتعبيراته الصوتية غنية ومتنوعة.

لقد قام هذا البرنامج التعليمي بتحديث النموذج إلى الإصدار الأحدث ونشر البيئة. يمكنك تنفيذ مهام استنساخ الصوت أو تحويل النص إلى كلام بشكل مباشر وفقًا لإرشادات البرنامج التعليمي.

الاستخدام المباشر:https://go.hyper.ai/t7O8m

مجموعات البيانات العامة المختارة

1. مجموعة MMedC الطبية متعددة اللغات واسعة النطاق

تحتوي مجموعة البيانات على ما يقرب من 25.5 مليار رمز من بيانات التنبؤ الطبي، وتغطي 6 لغات رئيسية: الإنجليزية والصينية واليابانية والفرنسية والروسية والإسبانية، ولا يزال الدعم لمزيد من اللغات قيد التحديث والتوسيع.

الاستخدام المباشر:https://go.hyper.ai/jXv0r

نظرة عامة على إحصائيات مجموعة بيانات MMedC

2. مجموعة بيانات معيارية لاختبار القدرات الطبية متعدد اللغات MMedBench

تم تصميم مجموعة البيانات لتقييم تطور النماذج متعددة اللغات في المجال الطبي وتغطي 6 لغات و 21 مجالًا فرعيًا طبيًا. جميع الأسئلة في MMedBench مستمدة مباشرة من بنوك أسئلة الفحص الطبي في مختلف البلدان، مما يضمن دقة وموثوقية التقييم وتجنب تحيز الفهم التشخيصي الناجم عن الاختلافات في إرشادات الممارسة الطبية في مختلف البلدان.

الاستخدام المباشر:https://go.hyper.ai/8X9xD

نظرة عامة على إحصائيات مجموعة بيانات MMedBench

3. مجموعة بيانات اكتشاف الملاريا في لاكونا

تحتوي مجموعة البيانات على إجمالي 3,925 صورة شريحة للملاريا، بما في ذلك 2,747 صورة في مجموعة التدريب و1,178 صورة في مجموعة الاختبار. بالإضافة إلى الصورة، يتم تسجيل الشريحة التي تم التقاط الصورة عليها، وقراءة ميكرومتر مرحلة المجهر، وإعدادات الهدف، مع التقاط ما يصل إلى 40 صورة لكل شريحة.

الاستخدام المباشر:https://go.hyper.ai/9oBFv

أمثلة على صور مجموعات البيانات

4. HelpSteer2 مجموعة بيانات محاذاة التفضيلات البشرية

يحتوي HelpSteer2 على حوالي 10000 زوج إجابة، وهو أصغر بمقدار مرتبة من حيث الحجم من مجموعات بيانات التفضيلات الموجودة، ولكنه فعال للغاية في تدريب نماذج المكافآت. تهدف مجموعة البيانات إلى تدريب نماذج المكافآت التي يمكنها توجيه نماذج اللغة الكبيرة (LLMs) لتوليد إجابات عالية الجودة تتوافق مع التفضيلات البشرية.

الاستخدام المباشر:https://go.hyper.ai/YePhv

5. مجموعة بيانات فهم اللغة متعددة المهام متعددة اللغات MMMLU

تهدف مجموعة البيانات إلى تقييم وتحسين أداء نماذج الذكاء الاصطناعي في سياقات لغوية ومعرفية وثقافية مختلفة. تم بناء MMMLU على أساس معيار فهم اللغة متعدد المهام الضخم (MMLU)، وهو مقياس منطقي تم تحقيقه من خلال نماذج الذكاء الاصطناعي التي تتضمن مهام من 57 مجالًا مختلفًا، بدءًا من المعرفة الأولية إلى التخصصات المهنية المتقدمة مثل القانون والفيزياء والتاريخ وعلوم الكمبيوتر.

الاستخدام المباشر:https://go.hyper.ai/TY7aR

6. مجموعة اختبار توليد تحسين استرجاع FRAMES-benchmark

تحتوي مجموعة البيانات على 824 سؤالاً صعباً متعدد القفزات يتطلب الحصول على معلومات من 2 إلى 15 مقالة من ويكيبيديا. وتغطي الأسئلة موضوعات مثل التاريخ والرياضة والعلوم والحيوانات والصحة والمزيد، ويتم تصنيف كل سؤال حسب نوع الاستدلال، مثل العددي والجدولي والقيود المتعددة والزمني وما بعد المعالجة. وتوفر مجموعة البيانات أيضًا الإجابة الذهبية والمقالة ذات الصلة في ويكيبيديا لكل سؤال.

الاستخدام المباشر:https://go.hyper.ai/zp5WQ

7. مجموعة بيانات المهام الطبية الحيوية لتجزئة الصور المتعددة من MedScribble

تحتوي مجموعة البيانات على خربشات مكتوبة بخط اليد من قبل 3 معلقين جمعها فريق البحث، لإكمال 14 مهمة تقسيم من 14 مجموعة بيانات مختلفة مفتوحة المصدر لتقسيم الصور الطبية الحيوية. يحتوي MedScrible على إجمالي 64 زوجًا من تقسيمات الصور ثنائية الأبعاد، كل منها يحتوي على 3 مجموعات من التعليقات التوضيحية.

الاستخدام المباشر:https://go.hyper.ai/X901T

8. مجموعة بيانات معيارية لكشف الكائنات ذات العينات الصغيرة عبر النطاقات من CDFSOD-benchmark

يهدف هذا المشروع إلى حل مشكلة اكتشاف الكائنات ذات العينات الصغيرة عندما يكون هناك فرق كبير في المجال بين مجال المصدر ومجال الهدف. وهي تشمل مجموعة بيانات لتقييم الخوارزمية، بالإضافة إلى مؤشرات مجموعة البيانات مثل الأسلوب، والتباين بين الفئات (ICV)، والحدود غير القابلة للتحديد (IB) لقياس الاختلافات في المجال.

الاستخدام المباشر:https://go.hyper.ai/YQsnW

9. مجموعة بيانات CLVR Jaco Play ومجموعة بيانات روبوت التحكم عن بعد

تُعد مجموعة البيانات هذه موردًا قيمًا للعلماء والمطورين العاملين في مجالات مثل التحكم عن بعد في الروبوتات، ومعالجة اللغة الطبيعية، والتفاعل بين الإنسان والحاسوب. ويقدم 1085 مقطع فيديو للروبوت الذي يتم تشغيله عن بعد جاكو 2 مع التعليقات اللغوية المقابلة.

الاستخدام المباشر:https://go.hyper.ai/Xde69

10. مجموعة بيانات مهام الكابلات الروبوتية متعددة المراحل لتوجيه كابلات بيركلي

مجموعة بيانات Berkeley Cable Routing عبارة عن مجموعة بيانات لدراسة مهام التلاعب الروبوتية متعددة المراحل، والتي يتم تطبيقها بشكل خاص على مهام توجيه الكابلات. تتطلب المهمة من الروبوت تمرير كابل عبر سلسلة من المشابك، وهو ما يمثل تحديًا يتمثل في سيناريو التلاعب الروبوتي المعقد متعدد المراحل، بما في ذلك التعامل مع الأشياء القابلة للتشوه، وإغلاق حلقة الإدراك البصري، ومعالجة السلوكيات الممتدة المكونة من خطوات متعددة.

الاستخدام المباشر:https://go.hyper.ai/aiML0

لمزيد من مجموعات البيانات العامة، يرجى زيارة:

https://hyper.ai/datasets

مقالات المجتمع

1. نُشر في مجلة Nature الفرعية! يشرح المؤلف الأول للورقة بالتفصيل طريقة التعلم بالعينة الصغيرة لنموذج لغة البروتين لحل مشكلة نقص البيانات التجريبية الرطبة

في الحلقة الثالثة من سلسلة البث المباشر "Meet AI4S"، شارك تشو زيي، وهو زميل ما بعد الدكتوراه في مجموعة أبحاث البروفيسور هونغ ليانغ في معهد العلوم الطبيعية بجامعة شنغهاي جياو تونغ، أحدث نتائج أبحاث الفريق حول موضوع "طرق التعلم للعينات الصغيرة لنماذج لغة البروتين" واستكشف أفكارًا جديدة للتطور الموجه بمساعدة الذكاء الاصطناعي. تتضمن هذه المقالة نصًا لأهم ما جاء في خطابه، وهي مليئة بالمعلومات المفيدة.

شاهد الملخص الكامل:https://go.hyper.ai/MzXfg

2. جيف دين معجب بأبحاث جوجل الجديدة: نموذج الحوت الحيوي الصوتي يمكنه التعرف على 8 أنواع من الحيتان

قام فريق بحثي من جوجل بتطوير نموذج حيوي صوتي جديد للحيتان. يمكن للنموذج التعرف على ثمانية أنواع مختلفة من بين 94 نوعًا معروفًا من الحيتان حاليًا. هذه المقالة عبارة عن تفسير مفصل ومشاركة للورقة.

شاهد التقرير الكامل:https://go.hyper.ai/1l2HO

3. عيادة العميل النفسية متاحة على الإنترنت! استنادًا إلى 1.3 ألف حوار استشارة حول الاكتئاب، قام فريق جامعة شنغهاي جياوتونغ ببناء وكيل حوار نموذجي كبير يمكنه تشخيص الاكتئاب

قام فريق البروفيسور وو مينغيو من مختبر X-LANCE بجامعة شنغهاي جياو تونغ، بالتعاون مع معهد تيانكياو لعلوم الدماغ وThetaAI، ببناء نظام محاكاة وكيل الحوار الآلي كبير الحجم - عيادة AMC النفسية الذكية، للتشخيص الأولي للاكتئاب. هذه المقالة عبارة عن تفسير مفصل ومشاركة للورقة البحثية.

شاهد التقرير الكامل:https://go.hyper.ai/AdjI5

4. تحقيق التنبؤ بالالتحام الديناميكي للبروتين! أطلقت جامعة شنغهاي جياوتونغ/شينغياو للتكنولوجيا/جامعة صن يات صن وآخرون نموذج التوليد العميق الهندسي DynamicBind

اقترحت مجموعة أبحاث Zheng Shuangjia في جامعة Shanghai Jiao Tong، بالتعاون مع Star Pharma Technology وكلية الصيدلة بجامعة Sun Yat-sen وجامعة Rice في الولايات المتحدة، نموذجًا توليديًا عميقًا هندسيًا DynamicBind مصممًا للالتحام الديناميكي بالبروتين، مما يوفر نموذجًا بحثيًا جديدًا يعتمد على التعلم العميق يأخذ في الاعتبار التغيرات الديناميكية للبروتينات لتطوير الأدوية في عصر ما بعد AlphaFold. هذه المقالة عبارة عن تفسير مفصل ومشاركة لورقة البحث.

شاهد التقرير الكامل:https://go.hyper.ai/nErwd

5. فاز AlphaFold بجائزة نوبل، خطاب قبول الرئيس التنفيذي لشركة DeepMind: أفضل العلماء والذكاء الاصطناعي سيحققون عملاً مذهلاً

فاز ديفيد بيكر وديميس هاسابيس وجون إم. جامبر بجائزة نوبل في الكيمياء لعام 2024. وقال ديميس هاسابيس الرئيس التنفيذي لشركة DeepMind: "سيكون أفضل العلماء الذين يعملون مع أدوات الذكاء الاصطناعي هذه قادرين على إنجاز عمل لا يصدق". حتى أن ديفيد بيكر صرح بصراحة قائلاً: "إن AlphaFold ملهم للغاية". تتضمن هذه المقالة تقريرا مفصلا عن الفائزين بجائزة نوبل في الكيمياء لهذا العام.

شاهد التقرير الكامل:https://go.hyper.ai/UPpuB

مقالات موسوعية شعبية

1. نموذج المحول

2. جهاز التشفير التلقائي المتغير VAE

3. الشبكات العصبية الاصطناعية

4. جبهة باريتو

5. فهم اللغة متعدد المهام على نطاق واسع (MMLU)

فيما يلي مئات المصطلحات المتعلقة بالذكاء الاصطناعي التي تم تجميعها لمساعدتك على فهم "الذكاء الاصطناعي" هنا:

https://go.hyper.ai/wiki

تتبع شامل لأفضل المؤتمرات الأكاديمية في مجال الذكاء الاصطناعي:https://go.hyper.ai/event

إن ما ورد أعلاه هو كل محتوى اختيار المحرر لهذا الأسبوع. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

نراكم في الاسبوع القادم!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1300 مجموعة بيانات عامة

* يتضمن أكثر من 400 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai