HyperAI

أفضل ورقة بحثية للطلاب في CVPR! مجموعة بيانات كبيرة تضم 10 ملايين صورة وأكثر من 450 ألف نوع، يتيح نموذج BioCLIP متعدد الوسائط التعلم من الصفر

特色图像

على عكس المجال الأكاديمي التقليدي الذي يولي أهمية كبيرة لنشر المجلات العلمية، ففي عالم الكمبيوتر، وخاصة في مجالات التعلم الآلي، ورؤية الكمبيوتر، والذكاء الاصطناعي، وما إلى ذلك، فإن المؤتمرات الكبرى هي الملك. ومن هنا سوف تتدفق أعداد لا حصر لها من "اتجاهات البحث الساخنة" و"الأساليب المبتكرة".

وباعتبارها واحدة من المؤتمرات الثلاثة الأكثر تأثيرًا أكاديميًا في مجال الرؤية الحاسوبية وحتى الذكاء الاصطناعي، حطم المؤتمر الدولي للرؤية الحاسوبية والتعرف على الأنماط (CVPR) لهذا العام الأرقام القياسية السابقة من حيث حجم المؤتمر وعدد الأوراق المقبولة.

موقع الحدث، مصدر الصورة: دان جولدمان

وفقًا للإعلان الرسمي الأخير لشركة CVPR،أصبح مؤتمر CVPR 2024 المؤتمر الأكبر والأكثر حضورًا في تاريخ المؤتمر.اعتبارًا من 19 يونيو، تجاوز عدد المشاركين في الموقع 12 ألفًا.

مصدر الصورة: CVPR2024 الرسمي

بالإضافة إلى ذلك، وباعتبارها حدثًا رائدًا في مجال رؤية الكمبيوتر، تقبل CVPR أحدث الأبحاث في مجال الرؤية الحالي كل عام. من بين 11,532 ورقة بحثية صالحة تم تقديمها هذا العام، تم قبول 2,719 ورقة بحثية، مقارنة بـ CVPR 2023.ارتفع عدد الأوراق المستلمة بمقدار 20.6%، في حين انخفض معدل القبول بمقدار 2.2%.وتظهر هذه البيانات أن شعبية المنافسة وجودة الأوراق الفائزة في CVPR 2024 قد زادت.

عدد الأوراق الفائزة، المصدر: php.cn

في الصباح الباكر من يوم 20 يونيو بتوقيت بكين، أعلن مؤتمر CVPR 2024 رسميًا عن أفضل ورقة بحثية وجوائز أخرى لهذه الدورة. وبحسب الإحصائيات فقد فاز ما مجموعه 10 أوراق بحثية بجوائز.ومن بينها، هناك 2 أفضل ورقتين، و2 أفضل ورقتين طلابيتين، و2 ترشيحات لأفضل ورقة بحثية، و4 ترشيحات لأفضل ورقة بحثية طلابية.

فازت BIoCLIP بجائزة أفضل ورقة بحثية للطلاب. مصدر الصورة: CVPR2024 الرسمي

في،"BIoCLIP: نموذج أساسي لرؤية شجرة الحياة" تم اختياره كأفضل ورقة بحثية للطلاب.وفي هذا الصدد، علقت سارة بيري، الأستاذة المساعدة في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا، بأن المؤلفين والفريق كانوا فائزين "مستحقين"، وكان المؤلف الأول للورقة البحثية، صامويل ستيفنز، أول من أعرب عن امتنانه على المنصة.

علقت سارة بيري على فريق BIoCLIP على وسائل التواصل الاجتماعي:

سيقوم HyperAI بتفسير "BIoCLIP: نموذج أساسي لرؤية شجرة الحياة" بشكل شامل من جوانب مجموعة البيانات وهندسة النموذج وأداء النموذج وما إلى ذلك، وتلخيص الإنجازات الأخرى لسام ستيفنز للجميع.

عنوان التنزيل:
https://arxiv.org/pdf/2311.18803

إنشاء أكبر مجموعة بيانات للصور البيولوجية وأكثرها تنوعًا

حاليًا، أكبر مجموعة بيانات صور بيولوجية للتعلم الآلي هي iNat21، والتي تحتوي على 2.7 مليون صورة وتغطي 10000 نوع. على الرغم من أن نطاق تصنيف iNat21 قد تحسن بشكل كبير مقارنة بمجموعات البيانات العامة مثل ImageNet-1k، إلا أن 10000 نوع لا تزال نادرة في علم الأحياء. أفاد الاتحاد الدولي لحفظ الطبيعة بوجود أكثر من مليوني نوع معروف في عام 2022، مع أكثر من 10 آلاف نوع من الطيور والزواحف وحدها.

لمعالجة مشكلة قيود فئة الأنواع في مجموعات بيانات الصور البيولوجية،قام الباحثون ببناء مجموعة بيانات تسمى TreeOfLife-10M تحتوي على 10 ملايين صورة.يضم أكثر من 450 ألف نوع، وقد حقق تقدمًا ثوريًا في حجم مجموعة البيانات وتنوع الأنواع.

مخطط شجري لـ 108 شعبة في TreeOfLife-10M. تمثل الألوان المختلفة شُعبًا مختلفة، ويمثل حجم الصندوق العدد النسبي للعينات.

تجمع مجموعة البيانات الصور البيولوجية من iNaturalist، وBIOSCAN-1M، وموسوعة الحياة (EOL).

مصدر بيانات TreeOfLife-10M

بالإضافة إلى فئات الأنواع البالغ عددها 10,000 والتي يغطيها iNat21، قام الباحثون بتنزيل 6.6 مليون صورة من EOL لتوسيع TreeOfLife-10M لتغطية 440,000 تصنيف إضافي. وفي الوقت نفسه، لمساعدة النموذج الأساسي على تعلم التمثيلات المرئية شديدة الدقة للحشرات، قام الباحثون أيضًا بدمج BIOSCAN-1M، وهي مجموعة بيانات حديثة تحتوي على مليون صورة حشرات مختبرية، تغطي 494 عائلة مختلفة و7831 تصنيفًا للأنواع.

عنوان التنزيل TreeOfLife-10M:
https://go.hyper.ai/Gliol

نموذج متعدد الوسائط BioCLIP: تحسين القدرة على التعميم استنادًا إلى CLIP

بالمقارنة مع المهام العامة، فإن مساحة تسمية الرؤية الحاسوبية البيولوجية أكثر ثراءً. لا يقتصر الأمر على أن عدد التعليقات التصنيفية ضخم فحسب، بل إن التعليقات مترابطة أيضًا في نظام التصنيف الهرمي. ولا شك أن هذا يفرض تحديات ضخمة على تدريب النماذج الأساسية ذات التغطية الواسعة للأنواع وقدرات التعميم القوية.

استناداً إلى مئات الأعوام من الخبرة في البحث البيولوجي، يعتقد الباحثون أنه إذا كان النموذج الأساسي قادراً على ترميز بنية مساحة التعليق بنجاح، فحتى لو لم يتم رؤية نوع معين، فقد يكون النموذج قادراً على تحديد جنسه أو عائلته المقابلة وإعطاء تمثيل مماثل. سيساعد هذا التمثيل الهرمي في تحقيق التعلم من خلال عدد قليل من اللقطات أو حتى من دون أي لقطة للتصنيفات الجديدة.

وبناءً على ذلك، اختار الباحثون CLIP، وهو نموذج معماري متعدد الوسائط طورته شركة OpenAI.واستخدم هدف التعلم التبايني المتعدد الوسائط الخاص بـ CLIP للتدريب المسبق المستمر على TREEOFLIFE-10M.

على وجه التحديد، يقوم CLIP بتدريب نموذجين للتضمين أحادي النمط، المشفر المرئي ومشفر النص، لتعظيم تشابه الميزات بين الأزواج الإيجابية وتقليل تشابه الميزات بين الأزواج السلبية، حيث تأتي الأزواج الإيجابية من بيانات التدريب والأزواج السلبية هي كل الأزواج الأخرى المحتملة في الدفعة.

أنواع النصوص في تدريب BioCLIP

بالإضافة إلى ذلك، فإن الميزة المهمة لـ CLIP هي أن مُرمِّز النص الخاص به يقبل النص الحر، والذي يمكنه التعامل مع تنسيقات أسماء الفئات المتنوعة في المجال البيولوجي. وفيما يتعلق بشكل النص في هذه الدراسة فقد اعتبر الباحثون بشكل رئيسي:

* الاسم التصنيفي:التصنيف البيولوجي القياسي يتكون من سبعة مستويات من الأعلى إلى الأدنى: المملكة، الشعبة، الطبقة، الرتبة، العائلة، الجنس، والنوع. بالنسبة لكل نوع، يتم "تسطيح" التصنيف عن طريق ربط جميع العلامات من الجذر إلى الأوراق في سلسلة واحدة، وهو الاسم التصنيفي.

* الاسم العلمي:يتكون من جنس ونوع.

* الاسم الشائع:تكون أسماء الفئات عادةً باللغة اللاتينية، وهو أمر غير شائع في مجموعات البيانات العامة التي يتم تدريبها مسبقًا باستخدام النصوص والصور. وبدلًا من ذلك، فإن الأسماء الشائعة مثل "العقعق ذو المنقار الأسود" هي الأكثر شيوعًا. تجدر الإشارة إلى أنه قد لا يكون هناك مطابقة فردية بين الأسماء الشائعة والتصنيفات؛ قد يكون للأنواع عدة أسماء شائعة، أو قد يشير نفس الاسم الشائع إلى عدة أنواع.

في التطبيقات العملية، قد يكون هناك نوع واحد فقط من مدخلات التعليقات التوضيحية. من أجل زيادة المرونة أثناء التفكير،واقترح الباحثون استراتيجية تدريب على نوع النص المختلط.وهذا يعني أنه في كل خطوة من خطوات التدريب، يتم إقران كل صورة إدخال بنص تم أخذ عينات عشوائية منه من جميع أنواع النصوص المتاحة. تظهر التجارب أن استراتيجية التدريب هذه لا تحافظ على ميزة التعميم لأسماء التصنيف فحسب، بل توفر أيضًا المزيد من المرونة أثناء التفكير.

عملية تحديد BioCLIP

كما هو موضح في الشكل (أ) أعلاه، فإن المجموعات التصنيفية أو تسميات التصنيف لنباتين مختلفين، Onoclea sensibilis (د) و Onoclea hintonii (هـ)، هي نفسها تمامًا باستثناء النوع.

كما هو موضح في الشكل 2ب أعلاه، فإن مُرمِّز النص هو نموذج لغوي انحداري ذاتي يمكنه ترميز التمثيلات الهرمية للتصنيف بشكل طبيعي، حيث يمكن لتمثيل الترتيب في Polypodiales أن يعتمد فقط على الترتيبات الأعلى ويمتص المعلومات من رموز المملكة والشعبة والفئة. يتم إدخال هذه التمثيلات الهرمية للعلامات التصنيفية في هدف تدريب مسبق متباين قياسي ومطابقتها مع تمثيلات الصور (د) و (هـ).

أمثلة التنبؤ لـ BioCLIP وCLIP

يوضح الشكل أعلاه مثالاً للتنبؤات التي قدمتها BioCLIP وCLIP لخمسة أنواع، بما في ذلك الطيور 525، والعوالق، والحشرات. يتم وضع علامة على الإجابات الصحيحة باللون الأخضر، ويتم وضع علامة على الإجابات الخاطئة باللون الأحمر. يُظهر العمود الأيسر التوقعات الصحيحة من BioCLIP. في الوسط وعلى اليمين توجد صور تم التعليق عليها بشكل غير صحيح بواسطة CLIP ولكن تم التعليق عليها بشكل صحيح بواسطة BioCLIP.

يؤدي BioCLIP أداءً جيدًا في المهام ذات اللقطات الصفرية والقليلة

قام الباحثون بمقارنة BioCLIP بنموذج الرؤية العام. نتائجيؤدي BioCLIP أداءً جيدًا في كل من المهام ذات اللقطات الصفرية والقليلة، ويتفوق بشكل كبير على CLIP و أوبن كليب،متوسط التحسن المطلق في المهام ذات اللقطات الصفرية والقليلة هو 17% و16% على التوالي. وأظهر التحليل الجوهري أيضًا أن BioCLIP تعلم تمثيلًا هرميًا أكثر دقة يتوافق مع شجرة الحياة، وهو ما يفسر قدرته المتفوقة على التعميم.

أعلى دقة في تصنيف الطلقات الصفرية والطلقات الفردية والخمس طلقات للنماذج المختلفة

وعلى وجه التحديد، قدم الباحثون مهمة تقييم جديدة بعنوان "الأنواع النادرة"، والتي جمعت حوالي 25 ألف نوع من القائمة الحمراء للاتحاد الدولي لحفظ الطبيعة، والتي تصنف على أنها قريبة من التهديد، أو معرضة للخطر، أو معرضة للخطر، أو معرضة لخطر شديد، أو منقرضة في البرية. قام الباحثون باختيار 400 نوع من هذه الأنواع مع ما لا يقل عن 30 صورة في مجموعة بيانات نهاية الحياة وقاموا بإزالتها من TreeOfLife-10M.تم إنشاء مجموعة اختبار جديدة للأنواع النادرة،هناك 30 صورة لكل نوع.

كما هو موضح في الشكل أعلاه، يتفوق BioCLIP بشكل كبير على نموذج CLIP الأساسي ونموذج CLIP المدرب باستخدام iNat21 في تصنيف اللقطة الصفرية، وخاصة في التصنيفات غير المرئية (انظر عمود الأنواع النادرة).

نتائج مثمرة، استكشاف البحث العلمي وراء أفضل BioCLIP

تم إصدار تقرير "BioCLlP: نموذج أساسي لرؤية شجرة الحياة" بشكل مشترك من قبل جامعة ولاية أوهايو، ومايكروسوفت للأبحاث، وجامعة كاليفورنيا، إيرفين، ومعهد رينسيلار للفنون التطبيقية.المؤلف الأول للدراسة، الدكتور صموئيل ستيفنز، والمؤلف المراسل، جيامان وو، كلاهما من جامعة ولاية أوهايو.

على الرغم من أن صامويل ستيفنز يصف نفسه بشكل متواضع على موقعه الشخصي بأنه "ليس شخصًا يأخذ نفسه على محمل الجد"، إلا أنه بالنظر إلى نتائج أبحاثه العلمية المثمرة وجهوده المتواصلة في السنوات الأخيرة، فمن الواضح أنه شخص يأخذ البحث العلمي على محمل الجد.

ومن المفهوم أن صامويل ستيفنز يعمل في مجال الكمبيوتر منذ عام 2017. النموذج المتعدد الوسائط BioCLlP هو نتيجة بحث نشرها في ديسمبر 2023 وتم قبولها من قبل CVPR 2024 في فبراير 2024.

في الواقع، يعد العمل في مجال الرؤية الحاسوبية مثل BioCLlP مجرد أحد اتجاهات بحثه. يتميز بمجموعة واسعة من الاهتمامات وأجرى سلسلة من الأبحاث في مجالات مثل الذكاء الاصطناعي للعملات المشفرة ومشاريع LLM المختلفة.

على سبيل المثال، شارك في "MMMU: معيار ضخم متعدد التخصصات ومتعدد الوسائط للفهم والتفكير للخبراء AGI".تم اقتراح معيار جديد يسمى MMMU (فهم اللغة متعدد المهام الضخم).باعتبارها واحدة من أكثر معايير تقييم النماذج الكبيرة تأثيرًا في الصناعة، تركز MMMU على الاستفادة من المعرفة في مجالات محددة (العلوم والصحة والطب والعلوم الإنسانية وما إلى ذلك) من أجل الإدراك والمنطق المتقدمين، مما يتطلب نماذج متعددة الوسائط لتكون قادرة على أداء مهام مماثلة لتلك التي يواجهها الخبراء.

استخدم الباحثون هذه التقنية لتقييم 14 من نماذج LMM مفتوحة المصدر ونموذج GPT-4V الخاص (ision)، ووجدوا أن نموذج GPT-4V المتقدم حقق دقة 56% فقط، مما يدل على أنه لا يزال هناك مجال كبير للتحسين في النموذج. وفي هذا الصدد، أعرب الباحثون عن أملهم في أن يلهم هذا المعيار المجتمع لبناء الجيل القادم من نماذج الأساس متعددة الوسائط لتحقيق الذكاء الاصطناعي العام على مستوى الخبراء.
MMMU: https://mmmu-benchmark.github.io

ومن المؤكد أن شغفه بالبحث العلمي وموقفه المنفتح هما أيضًا من العوامل الرئيسية في نجاحه. بالأمس، انتشر خبر فوز BioCLlP بجائزة أفضل بحث طلابي، وسارع الدكتور صموئيل ستيفنز إلى التعبير عن آرائه للعالم الخارجي عبر منصات التواصل الاجتماعي: "إذا كنت ترغب في التحدث عن الرؤية الحاسوبية للحيوانات، أو النماذج الأساسية متعددة الوسائط، أو الذكاء الاصطناعي للعلوم، فيرجى إرسال رسالة خاصة لي!"

أعرب صامويل ستيفنز عن موقف منفتح على وسائل التواصل الاجتماعي

ومن الجدير بالذكر أن الدكتور صموئيل ستيفنز لا يكتفي بالتقدم في مجال البحث العلمي فحسب، بل إنه لا ينسى أبدًا دعم الجيل الأصغر سنًا. يقدم موقعه الشخصي أيضًا نصائح للمبتدئين: "إذا كنت ترغب في البدء بتعلم الآلة والذكاء الاصطناعي، فقد ترغب في البدء بدورة تعلم الآلة من كورسيرا ودورة الشبكات العصبية من أندريه كارباثي: من الصفر إلى الاحتراف. كلتا الدورتين عاليتا الجودة، ومن المفترض أن تقدما قيمة كبيرة مقارنةً بالموارد المجانية الأخرى."

مراجع:
1. https://samuelstevens.me/#news

وأخيرًا أوصي بنشاط!

امسح رمز الاستجابة السريعة للتسجيل في التجمع الخامس غير المتصل بالإنترنت لصالون التكنولوجيا "Meet AI Compiler"↓