HyperAI

ملخص مجموعة بيانات NeurIPS 2024| إزالة الغلاف السحابي/التحليل الطيفي الكيميائي/الصوت الغنائي/القيادة الذاتية/عينات الحشرات······

特色图像

NeurIPS، الاسم الكامل لمؤتمر أنظمة معالجة المعلومات العصبية، هو مؤتمر أكاديمي سنوي حول أنظمة معالجة المعلومات العصبية. بدأ المؤتمر في عام 1987 تحت اسم NIPS. مع التطور السريع لمجال الذكاء الاصطناعي، توسع تأثيره تدريجيًا، وأصبح موضع اهتمام ومعرفه من قبل المزيد والمزيد من الباحثين والشركات. لتعكس بشكل أفضل مجموعة واسعة من المجالات التي يغطيها المؤتمر، تمت إعادة تسمية NIPS رسميًا إلى NeurIPS في عام 2017.

اليوم، أصبح مؤتمر NeurIPS واحدًا من المؤتمرات الأكاديمية الأكثر موثوقية في مجال الذكاء الاصطناعي في العالم، حيث يجذب العلماء ورجال الأعمال والباحثين من جميع أنحاء العالم.

يصادف هذا العام الدورة الثامنة والثلاثين من مؤتمر NeurIPS (NeurIPS 2024)، وتظل الإنجازات الأكاديمية عظيمة كما كانت دائمًا. وتشير التقارير إلى أنه تم تلقي ما مجموعه 15671 بحثًا صالحًا هذا العام، وتم قبول حوالي 4000 بحث أخيرًا.

قامت HyperAI بتجميع 9 مجموعات بيانات مفتوحة المصدر عالية الجودة من مجموعات البيانات التي تلقتها في المؤتمر.يغطي إزالة السحب، والأطياف الكيميائية، والصوت الغنائي، والقيادة الذاتية، وعينات الحشرات والعديد من الجوانب الأخرى، ويمكنك تنزيله حسب الحاجة~

انقر هنا لمعرفة المزيد عن القمة:
https://go.hyper.ai/vWvAW

امسح رمز الاستجابة السريعة وأضف "مجموعة البيانات" للانضمام إلى مجموعة المناقشة↓

ملخص مجموعة بيانات NeurIPS 2024

1 ، مجموعة بيانات إزالة السحابة العامة AllClear

وكالة النشر:جامعة كورنيل، جامعة كولومبيا

الحجم المقدر:22.42 جيجابايت

عنوان التنزيل:https://go.hyper.ai/iRqtm

تشكل السحب في صور الأقمار الصناعية تحديات كبيرة للتطبيقات اللاحقة، والمشكلة الرئيسية التي تواجه أبحاث إزالة السحب الحالية هي الافتقار إلى معايير شاملة ومجموعات بيانات تدريبية كبيرة ومتنوعة بما فيه الكفاية. AllClear هي حاليًا أكبر مجموعة بيانات لإزالة السحابة العامة، وتحتوي على 23742 منطقة اهتمام موزعة عالميًا (ROIs)، وتغطي مجموعة متنوعة من أنماط استخدام الأراضي، وإجمالي 4 ملايين صورة.

2. مجموعة بيانات محرف العربية المكتوبة بخط اليد

وكالة النشر:جامعة ولاية كارولينا الشمالية، جامعة الروح القدس الكسليك، الجمعية التاريخية اللبنانية

الحجم المقدر:9.83 جيجابايت

عنوان التنزيل:https://go.hyper.ai/yztH6

مجموعة بيانات المَحَرَف هي مجموعة بيانات تعلُّم آلي تُركِّز على التعرّف على النصوص العربية المكتوبة بخط اليد، وتحتوي على أكثر من 1.6 ألف صورة لصفحات تاريخية مكتوبة بخط اليد قام خبراء الأرشيف العرب بنسخها. يتم إرفاق كل صورة مستند بإحداثيات المضلع المكانية لأسطر النص ومعلومات العناصر الأساسية للصفحة، بهدف تطوير أحدث التقنيات في مجال التعرف على النصوص المكتوبة بخط اليد (HTR).

3 ،مجموعات بيانات التحليل الطيفي الكيميائي متعدد الوسائط

وكالة النشر:أبحاث IBM، جامعة زيورخ، EPFL، NCCR التحفيز

الحجم المقدر:9.7 جيجابايت

عنوان التنزيل:https://go.hyper.ai/ZdXk8

تحتوي مجموعة البيانات على بيانات محاكاة 1H-NMR و13C-NMR وHSQC-NMR والأشعة تحت الحمراء ولطيف الكتلة (الأنماط الأيونية الموجبة والسالبة) لـ 790.000 جزيء مستخرج من التفاعلات الكيميائية في بيانات براءات الاختراع. تكمن القيمة الأساسية لهذه المجموعة من البيانات في قدرتها على دمج المعلومات من الوسائط الطيفية المتعددة ومحاكاة الأساليب التي يستخدمها الخبراء البشريون لتحليل الهياكل الجزيئية، وبالتالي أتمتة التحليل البنيوي وتبسيط عملية الاكتشاف الجزيئي من التركيب إلى تحديد البنية.

4 ، مجموعة بيانات صوت الغناء GTSinger

وكالة النشر:جامعة تشجيانغ

الحجم المقدر:28.94 جيجابايت

عنوان التنزيل:https://go.hyper.ai/7jdi2

تحتوي مجموعة البيانات على 80.59 ساعة من الغناء المسجل في استوديوهات احترافية بواسطة 20 مغني محترف بـ 9 لغات مختلفة، بما في ذلك الصينية والإنجليزية واليابانية والكورية وغيرها، مما يوفر للباحثين مكتبة موارد ذات نغمات وأنماط غنية للغاية.

5 ، مجموعة بيانات القيادة الذاتية DrivingDojo

وكالة النشر:الأكاديمية الصينية للعلوم، ميتوان، مركز الذكاء الاصطناعي والروبوتات التابع لمعهد هونغ كونغ للابتكار التابع للأكاديمية الصينية للعلوم

عنوان التنزيل:https://go.hyper.ai/W3eDT

تحتوي مجموعة البيانات على حوالي 18 ألف مقطع فيديو، تغطي مدنًا مثل بكين وشنتشن وشوتشو، وتم تسجيلها في ظل ظروف جوية مختلفة وظروف ضوء النهار. ولا يشمل ذلك العمليات الطولية مثل التسارع والفرملة الطارئة والتوقف والتشغيل فحسب، بل يشمل أيضًا العمليات الجانبية مثل الدوران والتجاوز وتغيير المسارات. بالإضافة إلى ذلك، تم تصميم مجموعة البيانات خصيصًا لتحتوي على عدد كبير من مقاطع الفيديو لمسارات التفاعل بين الوكلاء المتعددين، بهدف تحسين قدرات التنبؤ والتحكم في نموذج العالم في بيئات القيادة المعقدة.

6 ،مجموعة بيانات التنوع البيولوجي للحشرات متعددة الوسائط

وكالة النشر:مركز التنوع البيولوجي الجينومي، جامعة جيلف، جامعة واترلو، إلخ.

الحجم المقدر:37.71 جيجابايت

عنوان التنزيل:https://go.hyper.ai/Ljjwp

تحتوي مجموعة بيانات BIOSCAN-5M على معلومات مفصلة عن أكثر من 5 ملايين عينة حشرية، مما يؤدي إلى توسيع مجموعات البيانات البيولوجية القائمة على الصور بشكل كبير. ولا يشمل ذلك فقط علامات التصنيف وتسلسلات الباركود النوكليوتيدات الخام وأرقام مؤشر الباركود المخصصة والمعلومات الجغرافية، بل يغطي أيضًا معلومات متعددة الوسائط مثل حجم العينة، بهدف فهم ومراقبة التنوع البيولوجي للحشرات العالمية.

7 ، مجموعة بيانات الأقمار الصناعية عالية الدقة OpenSatMap

وكالة النشر:الأكاديمية الصينية للعلوم، مركز أبحاث الذكاء الاصطناعي والروبوتات، معهد هونغ كونغ لأنظمة المعلومات، الأكاديمية الصينية للعلوم، خرائط تينسنت وجامعة بكين للبريد والاتصالات

الحجم المقدر:57.7 جيجابايت

عنوان التنزيل:https://go.hyper.ai/g54aa

هذه المجموعة من البيانات عبارة عن مجموعة بيانات أقمار صناعية عالية الدقة مصممة لبناء خرائط واسعة النطاق. ويحتوي التطبيق على تعليقات توضيحية دقيقة على مستوى المثيل وصور عالية الدقة، ويحتوي على 3787 صورة عالية الدقة من الأقمار الصناعية، بما في ذلك صور ليس فقط لمدن متعددة في الصين، ولكن أيضًا صور لأكثر من 50 مدينة و18 دولة حول العالم.

8 ،مجموعة بيانات أصوات الأنواع الطبيعية

وكالة النشر:جامعة ماساتشوستس أمهرست، iNaturalist

الحجم المقدر:131.26 جيجابايت

عنوان التنزيل:https://go.hyper.ai/lyTcc

تتكون مجموعة البيانات من 230 ألف ملف صوتي تلتقط الأصوات من أكثر من 5500 نوع، ساهم بها أكثر من 27 ألف مسجل حول العالم. تحتوي مجموعة البيانات هذه على أصوات الطيور والثدييات والحشرات والزواحف والبرمائيات، مع تسميات الصوت والأنواع المستمدة من سجلات المراقبة المقدمة إلى iNaturalist.

9 ، مجموعة بيانات متعددة الوسائط لأزواج النصوص والصور MINT-1T

وكالة النشر:جامعة واشنطن، جامعة ستانفورد، Salesforce Research، إلخ.

عنوان التنزيل:https://go.hyper.ai/kROfu

تحتوي مجموعة البيانات على تريليون علامة نصية و3.4 مليار صورة، مما يجعلها أكبر بعشر مرات من أكبر مجموعة بيانات مفتوحة المصدر سابقة. فهو لا يتضمن مستندات HTML فحسب، بل يتضمن أيضًا مستندات PDF وأوراق ArXiv، مما يحسن بشكل كبير تغطية المستندات العلمية بتنوعها. 

10 ، مجموعة بيانات ترجمات الصوت AudioSetCaps

وكالة النشر:جامعة البوليتكنيك الشمالية الغربية، شركة شيآن ليانفينج للتكنولوجيا الصوتية المحدودة، جامعة نانيانغ التكنولوجية، معهد الصوتيات، الأكاديمية الصينية للعلوم، إلخ.

عنوان التنزيل:https://go.hyper.ai/rTKdU

AudioSetCaps عبارة عن مجموعة بيانات لتعليقات صوتية تأتي بياناتها من AudioSet وYouTube-8M وVGGSound، وتحتوي على 6,117,099 ملف صوتي مدته 10 ثوانٍ. يأتي كل ملف صوتي مصحوبًا بعنوان وصفي وثلاثة أزواج من الأسئلة والأجوبة كبيانات وصفية لتوليد العنوان النهائي (ما مجموعه 18,414,789 زوجًا من بيانات الأسئلة والأجوبة). 

ما ورد أعلاه هو مجموعة بيانات NeurIPS 2024 التي تم تجميعها بواسطة HyperAI. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو تقديم مساهمة لإخبارنا بها!

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1300 مجموعة بيانات عامة

* يتضمن أكثر من 400 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 200 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai