HyperAI

مجموعة بيانات الصور البيولوجية TreeOfLife-10M

التاريخ

منذ عام واحد

المؤسسة

أبحاث مايكروسوفت

رابط النشر

imageomics.github.io

مساعدة التنزيل
特色图像

مع أكثر من 10 ملايين صورة تغطي 454000 تصنيفًا في شجرة الحياة، فإن TreeOfLife-10M هي أكبر مجموعة بيانات لصور الكائنات الحية الجاهزة للتعلم الآلي وعلامات التصنيف المرتبطة بها حتى الآن. ويتوسع هذا المشروع على الأساس الذي أنشأته مجموعات البيانات عالية الجودة الموجودة مثل iNat21 و BIOSCAN-1M، ويدمج كذلك صورًا جديدة مختارة من موسوعة الحياة (eol.org)، والتي توفر قدرًا كبيرًا من تنوع البيانات في TreeOfLife-10M. يتم تصنيف كل صورة في TreeOfLife-10M إلى المستوى التصنيفي الأكثر تحديدًا، بالإضافة إلى المستويات التصنيفية الأعلى في شجرة الحياة (للحصول على أمثلة للمستويات التصنيفية والعلامات، راجعنوع النص). يتم إنشاء TreeOfLife-10M للتدريب بيو كليب والنماذج المستقبلية القائمة على أسس بيولوجية.

يمكن استخدام مجموعة البيانات في مجالات متعددة، بما في ذلك أبحاث التنوع البيولوجي، وتحديد الأنواع، ومهام معالجة اللغة الطبيعية، والتعلم الآلي، وأبحاث الرؤية الحاسوبية.

تم إصدار مجموعة البيانات هذه في عام 2024 بواسطة جامعة ولاية أوهايو، وMicrosoft Research ومؤسسات أخرى.BioCLIP: نموذج مؤسسة الرؤية لشجرة الحياة" هي أفضل ورقة بحثية في CVPR 2024.