"التعرف على وجه الحوت" أصبح الآن متاحًا عبر الإنترنت. تستخدم جامعة هاواي 50000 صورة لتدريب نموذج التعرف بمتوسط دقة يبلغ 0.869

المحتويات في لمحة:يمكن التعرف على الوجه من خلال تحديد الهوية البشرية، وقد تم توسيع هذه التقنية لتشمل الحيتان، مما أدى إلى "التعرف على الزعنفة الظهرية". "تحديد الزعانف الظهرية" يستخدم تقنية التعرف على الصور لتحديد أنواع الحيتان من خلال زعانفها الظهرية. يعتمد التعرف التقليدي على الصور على نماذج الشبكة العصبية التلافيفية (CNN)، والتي تتطلب عددًا كبيرًا من صور التدريب ولا يمكنها التعرف إلا على أنواع معينة من الكائنات. في الآونة الأخيرة، قام باحثون من جامعة هاواي بتدريب نموذج التعرف على الصور متعدد الأنواع والذي أظهر أداءً جيدًا في تطبيقات الحيتان.
الكلمات المفتاحية:التعرف على الصور - الحيتانيات ArcFace
المؤلف: داسيرني
المحرر: هوانهوان، سانيانغ
تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~
تُعد الحيتانيات حيوانات رائدة وكائنات مؤشرة للنظام البيئي البحري، وتتمتع بقيمة بحثية عالية للغاية لحماية البيئة البحرية.يتطلب التعرف التقليدي على الحيوانات تصوير الحيوانات في الموقع وتسجيل وقت ومكان ظهورها الفردي. إنها تتضمن العديد من الخطوات والعملية معقدة.ومن بينها، مطابقة الصور - تحديد نفس الشخص في صور مختلفة - وهي عملية تستغرق وقتا طويلا بشكل خاص.
دراسة أجراها تاين وآخرون عام 2014. وقد تم تقدير أنه خلال مسح مدته عام للصيد والإطلاق للدلافين المرقطة (Stenella longirostris)،استغرقت عملية مطابقة الصور أكثر من 1100 ساعة من العمل اليدوي ومثلت ما يقرب من ثلث التكلفة الإجمالية للمشروع..
في الآونة الأخيرة، استخدم باحثون من بينهم فيليب تي باتون من جامعة هاواي أكثر من 50 ألف صورة (بما في ذلك 24 نوعًا من الحيتانيات و39 كتالوجًا) لتدريب نموذج التعرف على الصور متعدد الأنواع استنادًا إلى رأس تصنيف ArcFace للتعرف على الوجوه.حقق النموذج دقة متوسطة (MAP) بلغت 0.869 في مجموعة الاختبار. ومن بينها، تجاوزت درجات MAP لـ 10 أدلة 0.95.
نُشر البحث في مجلة Methods in Ecology and Evolution، تحت عنوان "نهج التعلم العميق للتعريف الضوئي يظهر أداءً عاليًا على عشرين نوعًا من الحيتانيات".

وقد نشرت نتائج البحث في مجلة Methods in Ecology and Evolution.
عنوان الورقة:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167
مجموعة البيانات: 25 نوعًا، 39 كتالوجًا
مقدمة البيانات
تعاونت مؤسستا Happywhale وKaggle مع باحثين من جميع أنحاء العالم لتجميع مجموعة بيانات واسعة النطاق ومتعددة الأنواع للحيتان. تم جمع مجموعة البيانات هذه لمسابقة Kaggle التي تطلب من الفرق تحديد الحيتانيات الفردية من صور زعانفها الظهرية / مناظرها الجانبية.تحتوي مجموعة البيانات على 41 كتالوجًا لـ 25 نوعًا، ويحتوي كل كتالوج على نوع واحد، وتظهر بعض الأنواع في الكتالوجات بشكل متكرر.
قامت الدراسة بإزالة كتالوجين للمنافسة لأن أحدهما كان يحتوي فقط على 26 صورة منخفضة الجودة للتدريب والاختبار، بينما كان الكتالوج الآخر يفتقر إلى مجموعة اختبار.تحتوي مجموعة البيانات النهائية على 50,796 صورة تدريبية و27,944 صورة اختبار، ومن بينها 50,796 صورة تدريبية تحتوي على 15,546 هوية.ومن بين هذه الهويات، 9240 (59%) لديها صورة تدريبية واحدة فقط، و14210 (91%) لديها أقل من 5 صور تدريبية.
مجموعة البيانات وعنوان الكود:
https://github.com/knshnb/kaggle-happywhale-1st-place
بيانات التدريب
ولمعالجة مشكلة الخلفيات المعقدة في الصور، قام بعض المشاركين بتدريب نماذج اقتصاص الصور التي يمكنها اكتشاف الحيتانيات في الصور تلقائيًا ورسم مربعات محيطة حولها. كما هو موضح في الشكل أدناه،يتضمن هذا الخط 4 أجهزة كشف للحيتان باستخدام خوارزميات مختلفة بما في ذلك YOLOv5 وDetic.يؤدي تنوع الكواشف إلى زيادة قوة النموذج وتمكين زيادة البيانات على البيانات التجريبية.

الشكل 1: صور من 9 فئات في مجموعة المنافسة والمربعات المحددة التي تم إنشاؤها بواسطة 4 أجهزة كشف الحيتان
احتمالية المحصول الناتج عن كل مربع محيط هي: 0.60 للأحمر، و0.15 للأخضر الزيتوني، و0.15 للبرتقالي، و0.05 للأزرق. بعد القص، قام الباحثون بتغيير حجم كل صورة إلى 1024 × 1024 بكسل لتكون متوافقة مع العمود الفقري لـ EfficientNet-B7.
بعد تغيير الحجم، قم بتطبيق تقنيات تكبير البيانات مثل التحويل الأفيني، وتغيير الحجم والقص، والتدرج الرمادي، والتمويه الغاوسي، وما إلى ذلك.تجنب النماذجالإفراط في التجهيز خطير.
يشير توسيع البيانات إلى تحويل أو توسيع البيانات الأصلية أثناء عملية التدريب لزيادة تنوع وكمية عينات التدريب، وبالتالي تحسين قدرة التعميم ومتانة النموذج.
التدريب النموذجي: تحديد الأنواع والأفراد
الشكل التالي يوضح عملية تدريب النموذج كما هو موضح في الجزء البرتقالي.قام الباحثون بتقسيم نموذج التعرف على الصور إلى ثلاثة أجزاء: العمود الفقري والرقبة والرأس.

الشكل 2: خط أنابيب تدريب نموذج التعرف على الصور متعدد الأنواع
يوضح الصف الأول في الشكل خطوات المعالجة المسبقة (مع أخذ صورة الدلفين الشائع Delphinus delphis كمثال).يتم إنشاء المحاصيل من خلال 4 نماذج لكشف الكائنات، وتقوم خطوة زيادة البيانات بإنشاء صورتين كمثال.
يوضح الصف السفلي خطوات التدريب لشبكة تصنيف الصور.من العمود الفقري إلى الرقبة إلى الرأس.
تنتقل الصورة أولاً عبر الشبكة إلى العمود الفقري.أنتجت سلسلة من الدراسات على مدى العقد الماضي العشرات من الشبكات الأساسية الشائعة، بما في ذلك ResNet، وDenseNet، وXception، وMobileNet. ثبت,يقدم EfficientNet-B7 أفضل أداء في تطبيقات الحيتانيات.
يقوم Backbone بأخذ صورة ومعالجتها من خلال سلسلة من الطبقات التلافيفية والتجميعية لإنتاج تمثيل ثلاثي الأبعاد مبسط للصورة. يقوم العنق بتقليص هذا الناتج إلى متجه أحادي البعد، يُعرف أيضًا باسم المتجه الذاتي.
يقوم كلا النموذجين الرئيسيين بتحويل متجهات الميزات إلى احتمالات فئة، أي Pr (الأنواع) أو Pr (الأفراد).يتم استخدامه لتحديد الأنواع وتحديد الأفراد على التوالي.تُسمى رؤوس التصنيف هذه بـ ArcFace شبه المركز مع هوامش ديناميكية وهي قابلة للتطبيق بشكل عام على سيناريوهات التعرف على الصور متعددة الأنواع.
النتائج التجريبية: متوسط الدقة 0.869
حصلنا على دقة متوسطة (MAP) قدرها 0.869 للتنبؤات على 21192 صورة في مجموعة الاختبار (39 كتالوجًا لـ 24 نوعًا).كما هو موضح في الشكل أدناه، يختلف متوسط الدقة عبر الأنواع ولا يعتمد على عدد صور التدريب أو الاختبار.

الشكل 3: متوسط الدقة في مجموعة الاختبار
تُظهر اللوحة العلوية عدد الصور لكل نوع حسب الغرض (أي التدريب أو الاختبار). يتم تمثيل الأنواع ذات الفهارس المتعددة بواسطة x.
يوضح الشكل أن النموذج يعمل بشكل أفضل في التعرف على الحيتان المسننة، لكن أداءه أسوأ في التعرف على الحيتان البالينية.حصل نوعان فقط من الحيتان البالينية على تقييم أعلى من المتوسط.
وتوجد أيضًا اختلافات في أداء النموذج للأنواع متعددة الكتالوجات.على سبيل المثال، كانت درجات MAP للحوت المنك الشائع (Balaenoptera acutorostrata) بين الكتالوجات المختلفة 0.79 و0.60 على التوالي. وتُظهِر أنواع أخرى مثل الحيتان البيضاء (Delphinapterus leucas) والحيتان القاتلة أيضًا اختلافات كبيرة في الأداء بين الكتالوجات.
وعلى الرغم من أن الباحثين لم يجدوا سببًا لتفسير هذا الاختلاف في الأداء على مستوى الدليل،لكنهم وجدوا أن بعض المؤشرات النوعية مثل عدم الوضوح، والتفرد، والارتباك في التسمية، والمسافة، والتباين، والتناثر قد تؤثر على درجة دقة الصورة.

الشكل 4: المتغيرات التي قد تؤثر على اختلافات الأداء على مستوى الدليل
تمثل كل نقطة في الشكل دليلاً في مجموعة بيانات المنافسة، وتمثل البكسلات الصورة وعرض المربع المحدد. تشير المعرفات المميزة إلى عدد الأفراد المميزين في مجموعة التدريب. لكن،لا يوجد ارتباط واضح بين MAP على مستوى الكتالوج ومتوسط عرض الصورة ومتوسط عرض المربع المحدد وعدد صور التدريب وعدد الأفراد المختلفين وعدد صور التدريب لكل فرد.
وبالملخص، اقترح الباحثون أنه عند استخدام هذا النموذج للتنبؤ، كان متوسط دقة 10 كتالوجات تمثل 7 أنواع أعلى من 0.95، وكان الأداء أفضل من نموذج التنبؤ التقليدي، مما يدل على أن استخدام هذا النموذج يمكنه تحديد الأفراد بشكل صحيح.بالإضافة إلى ذلك، قام الباحثون أيضًا بتلخيص 7 نقاط حول أبحاث الحيتان أثناء التجربة:
- تم التعرف على الزعنفة الظهرية بشكل أفضل.
- كان أداء الدلائل التي تحتوي على عدد أقل بكثير من الميزات الفردية ضعيفًا.
- جودة الصورة مهمة.
- قد يكون التعرف على الحيوانات من خلال اللون أمرًا صعبًا.
- ستحصل الأنواع التي تكون سماتها بعيدة كل البعد عن مجموعة التدريب على درجة ضعيفة.
- تظل المعالجة المسبقة تشكل عقبة.
- قد تؤثر الاختلافات في علامات الحيوانات على أداء النموذج.
Happywhale: منصة علمية للمواطنين لأبحاث الحيتانيات
Happywhale، المذكور في مقدمة مجموعة البيانات لهذه المقالة، عبارة عن منصة علمية عامة لمشاركة صور الحيتان.ويهدف هذا المشروع إلى فتح مجموعات كبيرة من البيانات وتسهيل مطابقة هوية الصورة بسرعة.وخلق مشاركة بحثية علمية للجمهور.

عنوان الموقع الرسمي لـ Happywhale:
تأسست شركة Happywhale في أغسطس 2015. المؤسس المشارك للشركة تيد تشيزمان هو عالم طبيعة نشأ في مونتيري باي، كاليفورنيا. كان يحب مشاهدة الحيتان منذ أن كان طفلاً وسافر إلى القارة القطبية الجنوبية وجزيرة جورجيا الجنوبية عدة مرات.يمتلك أكثر من 20 عامًا من الخبرة في استكشاف القارة القطبية الجنوبية وإدارة السياحة القطبية.

تيد تشيزمان، المؤسس المشارك لشركة Happywhale
في عام 2015، غادر تيد شركة Cheesemans' Ecology Safaris (شركة سياحة بيئية أسسها والدا تيد، اللذان يعملان أيضًا في مجال الطبيعة، في عام 1980) بعد 21 عامًا من العمل، وانضم إلى مشروع Happywhale. جمع البيانات العلمية لتعزيز فهمنا والحفاظ على الحيتان.
في بضع سنوات فقط،لقد أصبح موقع Happywhale.com أحد أكبر المساهمين في مجال أبحاث الحيتانيات.بالإضافة إلى العدد الهائل من صور التعرف على الحيتان، فإنها توفر أيضًا العديد من الأفكار لفهم أنماط هجرة الحيتان.
روابط مرجعية:
[1]https://baijiahao.baidu.com/s?id=1703893583395168492
[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132
[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette
[4]https://happywhale.com/about
تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~