علم الفلك: تحديد الشذوذ في 4 ملايين صورة للمجرة باستخدام شبكات CNN والتعلم النشط

تشكل الشذوذات الموجودة في المجرات مفتاح فهمنا للكون. ومع ذلك، ومع تطور تكنولوجيا الرصد الفلكي، تنمو البيانات الفلكية بشكل كبير، متجاوزة القدرات التحليلية لعلماء الفلك.
على الرغم من أن المتطوعين يمكنهم المشاركة في معالجة البيانات الفلكية عبر الإنترنت، إلا أنهم لا يستطيعون سوى إجراء بعض التصنيفات البسيطة وقد يفوتون بعض البيانات الرئيسية.
ولتحقيق هذه الغاية، قام الباحثون بتطوير خوارزمية Astronomaly التي تعتمد على الشبكات العصبية التلافيفية والتعلم غير الخاضع للإشراف. ومؤخرًا، استخدم باحثون من جامعة ويسترن كيب برنامج Astronomaly لتحليل البيانات على نطاق واسع لأول مرة، محاولين البحث عن الشذوذ في الكون من خلال 4 ملايين صورة للمجرات.
المؤلف | شيويه تساي
المحرر | ثلاثة خراف، برج حديدي
نُشرت هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~
تشكل الشذوذات الموجودة في المجرات مفتاح فهمنا للكون.من خلال تحليل الصور التي سجلتها تلسكوبات المسح، يستطيع الباحثون تحديد الشذوذ في المجرات واستخلاص استنتاجات حول أصل الكون وتطوره.
لكن هذه العملية تواجه تحديات خطيرة.لأن كمية بيانات الرصد الفلكي تتزايد بشكل كبير.خذ على سبيل المثال مرصد فيرا روبين، الذي سيتم وضعه قيد الاستخدام قريبًا. يحتوي هذا المرصد على أكبر كاميرا رقمية في العالم، ومن المتوقع أن يسجل 20 تيرابايت من البيانات كل ليلة، و60 بيتابايت من البيانات في عشر سنوات، ويقوم بـ 32 تريليون ملاحظة لنحو 20 مليار مجرة.أبعد بكثير من حدود ما يستطيع الباحثون تحليله بشريًا.

الشكل 1: مرصد فيرا روبين قيد الإنشاء
في يوليو 2007، أطلق بعض الباحثين مشروع Galaxy Zoo.تعزيز تصنيف صور الرصد الفلكي من خلال تجنيد المتطوعين عبر الإنترنت. استقطب المشروع حوالي 150 ألف متطوع لإجراء أكثر من 40 مليون تصنيف لنحو مليون صورة للمجرة سجلها مسح سلون الرقمي للسماء (SDSS).

الشكل 2: الصفحة الرئيسية لمشروع Galaxy Zoo
لكن المتطوعين لم يتمكنوا إلا من القيام بأعمال أساسية وكان من الممكن أن يفوتوا بسهولة تفاصيل في الصور.يتميز التعلم الآلي بالتفوق في تحليل الصور وتصنيف البيانات، ولديه إمكانات كبيرة في التحليل الفلكي.لقد تم استخدام التعلم الخاضع للإشراف على نطاق واسع في تحليل البيانات الفلكيةومع ذلك، تتطلب هذه الخوارزميات قدرًا كبيرًا من بيانات التدريب والتعريف المسبق، كما أن أدائها ضعيف في العثور على الشذوذ.
ولتحقيق هذه الغاية، قام الباحثون في عام 2021 بتطوير خوارزمية التعلم الآلي غير الخاضعة للإشراف Astronomaly والتي تعتمد على الشبكات العصبية التلافيفية (CNN)، والتي حققت أداءً جيدًا في مهام مختلفة. في الآونة الأخيرة، استخدم باحثون من جامعة ويسترن كيب برنامج Astronomaly لتحليل ما يقرب من 4 ملايين صورة للمجرات.تم تطبيق هذه الخوارزمية لأول مرة على تحليل البيانات على نطاق واسع واكتشفت الشذوذ الذي تم تجاهله في السابق.وقد تم نشر هذه النتيجة كنسخة أولية على arXiv.

تم نشر هذه النتيجة على arXiv
رابط الورقة:
https://arxiv.org/abs/2309.08660
الإجراءات التجريبية
مجموعة البيانات: كاميرا مسح الطاقة المظلمة
تتكون مجموعات البيانات في هذه الدراسة بشكل أساسي من صور مسجلة في النطاقات g وr وz في الدفعة الثامنة من البيانات العامة (DR8) لكاميرا الطاقة المظلمة للمسح (DECaLS).
وبعد ذلك، يتم فحص الصور الموجودة في مجموعة البيانات. قم بإزالة الصور التي تم حجبها بواسطة القطع الأثرية والنجوم، واستبعد الصور التي لا تتوافق مع نماذج المجرات القياسية.وهذا يترك 3,884,404 صورة للمجرة.
استخراج الميزات:CNN + PCA
من أجل تحسين الكفاءة الحسابية لبرنامج Astronomaly، من الضروري استخراج الميزات من الصور عالية الأبعاد وتحويلها إلى متجهات منخفضة الأبعاد.
تستخدم هذه الدراسة شبكات CNN المدربة مسبقًا لاستخراج الميزات من الصور. تقوم كل طبقة من CNN بإجراء تحويلات مختلفة على صورة الإدخال وتوليد متجه يمكنه تمثيل ميزات الصورة.
أخيرًا، يقوم CNN بإخراج متجه يحتوي على 1280 ميزة للصورة. ثم استخدم الباحثون تحليل المكونات الأساسية (PCA) لتقليل أبعاد البيانات بشكل أكبر. تحليل المكونات الرئيسية (PCA) هي طريقة إحصائية شائعة الاستخدام يمكنها تحويل مجموعة من المتغيرات المترابطة إلى مكونات رئيسية غير مرتبطة بناءً على تباين البيانات.من خلال PCA، يتم تقليص أبعاد الصورة إلى 26، مما يحسن كفاءة معالجة Astronomaly.
مراقبة غير طبيعية:iForest + التعلم النشط
يجمع برنامج Astronomaly بين خوارزميات غابة العزلة (iForest) وعامل القيم المتطرفة المحلية (LOF) لمراقبة الشذوذ.في اختبار البيانات، من الصعب تطبيق خوارزمية LOF على البيانات واسعة النطاق، بينما يمكن لخوارزمية iForest العثور بسرعة على الشذوذ في الصور من خلال أشجار القرار. لذلك، تم استخدام خوارزمية iForest في جميع التحليلات اللاحقة.
بعد ذلك، يقوم Astronomaly بتنفيذ التعلم النشط من خلال خوارزمية أقرب جار (NS) وخوارزمية الانحدار المباشر (DR) لتحديث درجات الشذوذ للصور في مجموعة البيانات بشكل مستمر.
يمكن لخوارزمية NS التنبؤ بتقييمات المستخدمين لجميع الصور استنادًا إلى كمية صغيرة من التقييمات الموضحة يدويًا من خلال خوارزمية الانحدار للغابات العشوائية. تحاول خوارزمية DR "محاكاة" تقييمات المستخدم للصورة بشكل مباشر.
وأخيرًا، سيتم مقارنة نتائج التسجيل للخوارزميتين مع نتائج البيانات الموضحة يدويًا للتقييم.

الشكل 3: بعض الصور الموضحة
العلامة 0 تُظهر النتائج من اليسار إلى اليمين القطع الأثرية والأقنعة ونسبة الإشارة إلى الضوضاء المنخفضة. العلامة 5 النتائج من اليسار إلى اليمين تتوافق مع اندماج المجرات، والعدسات الجاذبية، وغير المصنفة.
تشير عدسة الجاذبية إلى التأثير الذي يتسبب فيه جسم جاذبية قوي في توقف الضوء القريب عن الانتشار في خط مستقيم، وهو ما يشبه انكسار الضوء بواسطة عدسة.
التحقق المقارن:منحنى الاستدعاء + UMAP
استخدم الباحثون خوارزميات iForest وNS وDR للتنبؤ بالبيانات الموجودة في مجموعة التحقق. تحتوي مجموعة التقييم على 184 شذوذًا. تمكنت خوارزمية iForest من العثور على 15 شذوذًا فقط في 500 صورة ذات أعلى درجات الشذوذ، بينما وجدت خوارزميات DR وNS 84 شذوذًا لكل منهما.

الشكل 4: نتائج التنبؤ للخوارزميات المختلفة
علاوة على ذلك، قام الباحثون بتصنيف نتائج التنبؤ لخوارزميتي iForest وNS وفقًا للقطع الأثرية والعدسات الجاذبية واندماج المجرات، واكتشفوا الأسباب التي أدت إلى ضعف أداء خوارزمية iForest.

الشكل 5: تصنيف نتائج خوارزميات iForest (الخط المتقطع) وNS (الخط المتصل)
كما هو موضح في الشكل، فإن معظم التشوهات التي تم العثور عليها بواسطة خوارزمية iForest هي عبارة عن قطع أثرية.ورغم أن هذه الشذوذات التقنية هي شذوذات أيضاً، إلا أنها لا تحمل أي قيمة علمية. وتظهر النتائج أعلاه أنيمكن أن تساعد خوارزميات NS وDR برنامج Astronomaly في القضاء بسرعة على تداخل القطع الأثرية والعثور على الظواهر غير الطبيعية في الكون.
وفي الوقت نفسه، استخدم الباحثون طريقة التقريب والإسقاط المتعدد الموحد (UMAP) لتصنيف الصور في مجموعة التحقق.

الشكل 6: نتائج UMAP لمجموعة التقييم
يقوم UMAP بتصنيف الصور بناءً على درجات الشذوذ الخاصة بها. الصورة التي تحصل على درجة 1 هي صورة مجرة عادية، أي مجرة بدون أي ظروف خاصة. يوجد عدد كبير من الصور العادية ذات النقطة الواحدة حول كل نوع من أنواع الصور، مما يخلق عقبات أمام التنبؤ بخوارزمية iForest.
يمكن ملاحظة أن القطع الأثرية التي حصلت على درجة 0 والشذوذات التي حصلت على درجة 5 مقسمة إلى مجموعات ضيقة في الشكل، مما يشير إلى أن كلا النوعين من الصور لهما خصائص واضحة للغاية. ولكن في نفس الوقت، فإن توزيع النوعين من الصور قريب جدًا، مما قد يتسبب بسهولة في ارتكاب خوارزمية iForest لأخطاء في التقدير.
تطبيق واسع النطاق:التعليق والاستكشاف
بعد تقييم أداء الخوارزميات المختلفة، قام الباحثون بتطبيق خوارزمية NS على مجموعة البيانات بأكملها.
كما يمكن أن نرى في الشكل، عندما لا يتم تصنيف أي بيانات، أي عندما لا تكون خوارزمية iForest نشطة في التعلم، لا يوجد أي منحنى تقريبًا في النتائج، لأن خوارزمية iForest لا تجد إلا شذوذًا واحدًا بين 2000 بيانات ذات أعلى درجات الشذوذ.

الشكل 7: نتائج التنبؤ لخوارزمية NS مع أعداد مختلفة من التعليقات التوضيحية
ومع ذلك، بعد شرح 2000 نقطة بيانات في مجموعة البيانات، تمكن Astronomaly من العثور بسرعة على الشذوذ في الصور من خلال التعلم النشط.عندما يكون عدد التعليقات التوضيحية 4000، يكون لدى Astronomaly أكبر عدد من الشذوذ المكتشف حديثًا.، ثم يبدأ في الانخفاض، مما يشير إلى عدم الحاجة إلى أي تعليقات إضافية في هذا الوقت ويمكن زيادة مجموعة البيانات.
التحقيق المتابعة:1635/2000
بعد تحليل جميع الصور في مجموعة البيانات، اكتشف موقع Astronomaly 1635 شذوذًا في 2000 صورة ذات أعلى درجات الشذوذ، بما في ذلك 8 عدسات جاذبية، و18 ظاهرة غير مصنفة، و1609 اندماجًا للمجرات.

الشكل 8: عدسة الجاذبية التي اكتشفها Astronomaly

الشكل 9: الشذوذ غير المصنف الذي اكتشفه Astronomaly

الشكل 10: اندماج المجرات الذي اكتشفه Astronomaly
الذكاء الاصطناعي يتجه نحو الفضاء
مع استمرار زيادة كمية بيانات المراقبة الفلكية، يتحسن وضع الذكاء الاصطناعي، الذي يتميز بالقدرة على تحليل البيانات، في علم الفلك تدريجيًا.وفي وقت مبكر من عام 2020، استخدم الباحثون في جامعة وارويك في المملكة المتحدة الذكاء الاصطناعي للعثور على 50 كوكبًا جديدًا من بيانات ناسا القديمة.
في الوقت نفسه، يواجه التلسكوب الراديوي الكروي ذو الفتحة الخمسمائة متر (FAST)، المعروف باسم "عين السماء الصينية"، أيضًا مشكلة كثرة البيانات.الذكاء الاصطناعي يوفر لهم الحل. في عام 2021، تعاونت FAST مع Tencent YouTube Lab لتحليل بيانات FAST وتمكنت بسرعة من العثور على 5 نجوم نابضة.
ويلعب الذكاء الاصطناعي دوره أيضًا في مجالات أخرى. في عام 2019، أصدر فريق تلسكوب أفق الحدث (ETH) أول صورة في العالم لثقب أسود. بعد أربع سنوات،استخدم باحثون في الولايات المتحدة الذكاء الاصطناعي لمعالجة الصورة وحصلوا على صورة عالية الدقة للثقب الأسود، ما أدى إلى "تجميل" الثقب الأسود.

الشكل 11:صورة الثقب الأسود الأصلية (يسار) وصورة الثقب الأسود المعالجة (يمين)
وربما، مثل البشر، فإن الذكاء الاصطناعي لديه طموحات عالية مثل النجوم والبحر. والآن خطت خطوة إلى داخل الكون، باحثة عن أدلة على تطور الكون في الكم الهائل من البيانات. من الكواكب الجديدة، إلى النجوم النابضة الجديدة، إلى الشذوذ الكوني الجديد، يفتح الذكاء الاصطناعي مستقبلًا جديدًا لعلم الفلك.
روابط مرجعية:
[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/classify
[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml
[3]https://www.thepaper.cn/newsDetail_forward_22699012
نُشرت هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~