نشر 30 باحثًا مراجعة مشتركة في مجلة Nature، حيث استعرضوا 10 سنوات وفككوا كيف أعاد الذكاء الاصطناعي تشكيل نموذج البحث العلمي

يعد الاكتشاف العلمي عملية معقدة تتضمن عدة مراحل مترابطة، بما في ذلك تشكيل الفرضيات، وتصميم التجارب، وجمع البيانات وتحليلها. في السنوات الأخيرة، أصبح تكامل الذكاء الاصطناعي والبحث العلمي الأساسي عميقًا بشكل متزايد. بمساعدة الذكاء الاصطناعي، تمكن العلماء من تسريع تقدم البحث العلمي وتعزيز تنفيذ نتائج البحث العلمي.
نشرت المجلة الموثوقة "نيتشر" ورقة بحثية كتبها هانشين وانج، وهو زميل ما بعد الدكتوراه في كلية علوم الكمبيوتر وتكنولوجيا الجينات في جامعة ستانفورد، وتيانفان فو من قسم علوم الكمبيوتر والهندسة في معهد جورجيا للتكنولوجيا، ويوانكي دو من قسم علوم الكمبيوتر في جامعة كورنيل، و30 آخرين.تستعرض هذه الورقة دور الذكاء الاصطناعي في البحث العلمي الأساسي على مدى العقد الماضي وتشير إلى التحديات والنقائص المتبقية.
تلخص هذه الورقة الأوراق.
اقرأ المقال كاملا:https://www.nature.com/articles/s41586-023-06221-2

دراسة حالة حول دمج الذكاء الاصطناعي والبحث العلمي الأساسي مصدر الصورة: الورقة الأصلية، ترجمتها إلى الصينية شركة HyperAI
01 جمع وتنظيم بيانات البحث العلمي بمساعدة الذكاء الاصطناعي
مع استمرار زيادة نطاق وتعقيد البيانات التي يتم جمعها بواسطة المنصات التجريبية، أصبحت المعالجة في الوقت الفعلي والحوسبة عالية الأداء (HPC) ضرورية لتخزين البيانات التي يتم إنشاؤها بسرعة وتحليلها بشكل انتقائي.
اختيار البيانات
إذا أخذنا تجارب تصادم الجسيمات كمثال، فسوف يتم توليد أكثر من 100 تيرابايت من البيانات في الثانية، وهو ما يشكل تحديًا كبيرًا لتقنيات نقل البيانات وتخزينها الحالية. في هذه التجارب الفيزيائية، يجب اكتشاف البيانات الوصفية التي تتجاوز 99.99% في الوقت الفعلي والتخلص من البيانات غير ذات الصلة.يمكن أن تساعد التقنيات مثل التعلم العميق والمشفرات الآلية في تحديد الأحداث غير الطبيعية في الأبحاث العلمية المماثلة وتقليل ضغط نقل البيانات ومعالجتها بشكل كبير.
في الوقت الحالي، يتم استخدام هذه التقنيات على نطاق واسع في مجالات مثل الفيزياء وعلم الأعصاب وعلوم الأرض وعلم المحيطات وعلم الفلك.
شرح البيانات
تتمتع خوارزميات وضع العلامات الزائفة وانتشار العلامات بأهمية كبيرة في استبدال عملية وضع العلامات المملة على البيانات. يمكنهم تمكين النموذج من تصنيف البيانات الضخمة تلقائيًا باستخدام كمية صغيرة فقط من البيانات المصنفة بدقة.
توليد البيانات
من خلال زيادة البيانات تلقائيًا والنماذج التوليدية العميقة، يمكن إنشاء نقاط بيانات اصطناعية إضافية لتوسيع بيانات التدريب.أظهرت التجارب أن الشبكات التنافسية التوليدية (GANs) قادرة على تجميع صور واقعية في العديد من المجالات.وتتراوح هذه الأمور من أحداث تصادم الجسيمات، والمقاطع المرضية، وأشعة الصدر السينية، والتباين بالرنين المغناطيسي، والبنية الدقيقة للمواد ثلاثية الأبعاد، ووظائف البروتين إلى تسلسلات الجينات.
تحسين البيانات
يمكن للذكاء الاصطناعي تحسين دقة الصورة بشكل كبير، وتقليل الضوضاء، والقضاء على الأخطاء عند قياس الاستدارة، وبالتالي الحفاظ على اتساق الدقة العالية عبر المواقع.وتشمل أمثلة التطبيق تصور مناطق الزمان والمكان مثل الثقوب السوداء، والتقاط تصادمات الجسيمات الفيزيائية، وتحسين دقة صور الخلايا الحية، واكتشاف أنواع الخلايا بشكل أفضل في بيئات بيولوجية مختلفة.
02 تعلم التمثيلات ذات المعنى للبيانات العلمية
يمكن للتعلم العميق استخراج وتحسين التمثيلات ذات المغزى للبيانات العلمية على مستويات مختلفة من التجريد. يجب أن يحافظ التمثيل عالي الجودة على أكبر قدر ممكن من المعلومات حول البيانات مع الحفاظ على الإيجاز وسهولة الوصول إليه. وفيما يلي ثلاث استراتيجيات جديدة تلبي هذه المتطلبات:المقدمات الهندسية، والتعلم الذاتي، والنمذجة اللغوية.
المقدمات الهندسية
تعتبر الهندسة والبنية أمرًا بالغ الأهمية للبحث العلمي. يعتبر التماثل مفهوما هاما في الهندسة، والخصائص البنيوية المهمة تكون مستقرة في الاتجاهات المكانية ولا تتغير. لقد ثبت أن دمج المبادئ الهندسية المسبقة في التمثيلات المكتسبة فعال في تحليل الصور العلمية.
التعلم العميق الهندسي
أصبحت الشبكات العصبية الرسومية هي النهج الرائد للتعلم العميق على مجموعات البيانات ذات الهياكل الهندسية والعلائقية الأساسية. اعتمادًا على الأسئلة العلمية، قام الباحثون بتطوير تمثيلات بيانية مختلفة لالتقاط الأنظمة المعقدة.

كما هو موضح في الشكل أعلاه، يستخدم التعلم العميق الهندسي بنية الرسم البياني واستراتيجية نقل المعلومات العصبية لدمج معلومات الهندسة والبنية والتناظر للبيانات العلمية مثل الجزيئات/المواد. يقوم هذا النهج بتبادل المعلومات العصبية على طول الحواف في بنية الرسم البياني لتوليد تمثيلات كامنة (متجهات التضمين) مع مراعاة المسبقات الهندسية الأخرى (مثل الثبات وقيود التقدم الحسابي). لذلك،يمكن للتعلم العميق الهندسي دمج المعلومات البنيوية المعقدة في نماذج التعلم العميق، وبالتالي فهم ومعالجة مجموعات البيانات الهندسية الأساسية بشكل أفضل.
التعلم الذاتي الإشرافي
يتيح التعلم الذاتي للنموذج فهم الميزات العامة لمجموعة البيانات دون الاعتماد على تسميات صريحة. يمكن أن يكون بمثابة خطوة معالجة أولية رئيسية لتعلم الميزات القابلة للنقل من البيانات غير المصنفة على نطاق واسع قبل ضبط النموذج لأداء المهام اللاحقة. مثل هذا النموذج المدرب مسبقًا والذي يتمتع بفهم واسع للمجال العلمي هو عبارة عن متنبئ للأغراض العامة.يمكن تكييفه مع مجموعة متنوعة من المهام، وبالتالي تحسين الكفاءة وتجاوز الأساليب الخاضعة للإشراف البحت.

كما هو موضح في الشكل أعلاه، فإن تمثيل العينات المختلفة بشكل فعال مثل صور الأقمار الصناعية يتطلب التقاط أوجه التشابه والاختلاف بينهما. يمكن لاستراتيجيات التعلم الذاتي الإشراف مثل التعلم المتباين تحقيق هذا الهدف من خلال توليد بيانات الأقران المعززة، ومواءمة البيانات الإيجابية، وفصل أزواج البيانات السلبية. تعمل هذه العملية التكرارية على تعزيز التضمينات، مما يؤدي إلى تمثيلات كامنة مفيدة وأداء أفضل في مهام التنبؤ اللاحقة.
نمذجة اللغة
يعد نمذجة اللغة المقنعة طريقة شائعة للتعلم الذاتي للغة الطبيعية والتسلسلات البيولوجية (انظر الشكل أدناه).

إن معالجة اللغة الطبيعية ومعالجة التسلسل البيولوجي تؤثر على بعضها البعض.أثناء التدريب، يكون الهدف هو التنبؤ بالرمز التالي في التسلسل، بينما في التدريب القائم على القناع، تكون المهمة الخاضعة للإشراف الذاتي هي استعادة الرموز المقنعة في التسلسل باستخدام سياق التسلسل ثنائي الاتجاه. يمكن لنماذج لغة البروتين تشفير تسلسلات الأحماض الأمينية، والتقاط الخصائص البنيوية والوظيفية، وتقييم اللياقة التطورية للمتغيرات الفيروسية. عند التعامل مع التسلسلات الكيميائية الحيوية، يمكن لنماذج اللغة الكيميائية استكشاف الفضاء الكيميائي الواسع بشكل فعال.
كما هو موضح في الشكل أعلاه، يمكن لنمذجة اللغة المقنعة التقاط دلالات بيانات التسلسل بشكل فعال، مثل اللغة الطبيعية والتسلسلات البيولوجية. يقوم هذا النهج بتغذية العناصر المقنعة في الإدخال إلى وحدة المحول، والتي تتضمن خطوات المعالجة المسبقة مثل ترميز الموضع. يمثل الخط الرمادي آلية الاهتمام الذاتي، ويعكس عمق اللون حجم وزن الاهتمام. إنه يجمع بين تمثيل المدخلات غير المقنعة للتنبؤ بدقة بالمدخلات المقنعة. تنتج الطريقة تمثيلات تسلسلية عالية الجودة من خلال تكرار عملية الإكمال التلقائي هذه عبر العديد من عناصر الإدخال.
هندسة المحولات
يوحد المحول الشبكات العصبية الرسومية ونماذج اللغة، ويسيطر على معالجة اللغة الطبيعية، وقد تم تطبيقه بنجاح في مجالات مثل اكتشاف الإشارات الزلزالية، ونمذجة تسلسل الحمض النووي والبروتين، ونمذجة تأثيرات اختلاف التسلسل على الوظائف البيولوجية، والانحدار الرمزي.
المشغلات العصبية
من خلال تعلم رسم الخرائط بين مساحات الوظائف، يكون المشغل العصبي ثابتًا في عملية التقدير، ويمكنه العمل على أي تقدير إدخال، ويتقارب إلى قيمة محدودة عندما يتم تحسين الشبكة. بمجرد تدريب مشغل عصبي، يمكن تقييمه بأي دقة دون الحاجة إلى إعادة التدريب.
03 إنشاء فرضيات علمية تعتمد على الذكاء الاصطناعي
يمكن للذكاء الاصطناعي توليد فرضيات من خلال تحديد التعبيرات الرمزية المرشحة من الملاحظات الصاخبة. يمكنهم المساعدة في تصميم الأشياء، وتعلم الاحتمالات الخلفية البايزية للفرضيات، واستخدامها لتوليد فرضيات متوافقة مع البيانات والمعرفة العلمية.
مُتنبئ الصندوق الأسود للفرضيات العلمية
يمكن استخدام التعلم الخاضع للإشراف الضعيف لتدريب النماذج حيث يتم استخدام الإشراف الصاخب أو المحدود أو غير الدقيق كإشارة تدريب.
تم تدريب أساليب الذكاء الاصطناعي باستخدام عمليات محاكاة عالية الدقة وتم استخدامها لفحص المكتبات الجزيئية واسعة النطاق بشكل فعال؛ في علم الجينوم، يتم تدريب بنية المحول للتنبؤ بقيم التعبير الجيني باستخدام تسلسلات الحمض النووي، وبالتالي تحديد الطفرات الجينية؛ في طي البروتين، يمكن لـ AlphaFold2 التنبؤ بالإحداثيات الذرية ثلاثية الأبعاد للبروتينات من تسلسل الأحماض الأمينية؛ في فيزياء الجسيمات، يتضمن تحديد الكواركات الساحرة الكامنة في البروتونات فحص جميع الهياكل المحتملة وملاءمة جميع الهياكل المحتملة للبيانات التجريبية.
بالإضافة إلى المشكلات الأمامية، يتم استخدام الذكاء الاصطناعي بشكل متزايد لحل المشكلات العكسية.

كما هو موضح في الشكل أعلاه، يشير الفحص عالي الإنتاجية إلى استخدام المتنبئين بالذكاء الاصطناعي المدربين على مجموعات البيانات المولدة تجريبياً لفحص عدد صغير من الكائنات المستهدفة ذات الخصائص المثالية.يؤدي هذا إلى تقليل الحجم الإجمالي لمكتبة المرشحين بعدة أوامر من حيث الحجم.يمكن لهذا النهج استخدام التعلم الذاتي الإشرافي لتدريب المتنبئ مسبقًا على عدد كبير من الكائنات غير المحمية، ثم ضبط المتنبئ على مجموعة بيانات من الكائنات المحمية باستخدام قراءات مُسمَّاة. إن التقييم المختبري وتحديد كمية عدم اليقين يمكن أن يكمل هذا النهج، وبالتالي تبسيط عملية الفحص، وجعلها أكثر فعالية من حيث التكلفة وكفاءة الوقت، وفي نهاية المطاف تسريع تحديد المركبات والمواد والجزيئات الحيوية المرشحة.
استكشاف فضاءات الفرضيات التوافقية
وبالمقارنة بالطرق التقليدية التي تعتمد على قواعد مصممة يدويًا، يمكن استخدام استراتيجيات الذكاء الاصطناعي لتقييم مكافأة كل بحث وتحديد اتجاهات البحث ذات القيمة الأعلى.
بالنسبة لمشاكل التحسين، يمكن استخدام الخوارزميات التطورية لحل مهام الانحدار الرمزي. يمكن تطبيق التحسين التوافقي أيضًا على مهام مثل اكتشاف الجزيئات ذات خصائص الأدوية المرغوبة، حيث تكون كل خطوة في التصميم الجزيئي عبارة عن عملية اتخاذ قرار منفصلة. بالإضافة إلى ذلك، تم تطبيق أساليب التعلم التعزيزي بنجاح على مشاكل التحسين المختلفة، مثل تعظيم التعبير عن البروتين، وتخطيط الطاقة الكهرومائية في سهل الأمازون، واستكشاف مساحة معلمات مسرع الجسيمات.

كما هو موضح في الشكل أعلاه، أثناء الانحدار الرمزي، يستفيد المستكشف بالذكاء الاصطناعي من المكافآت التي يتنبأ بها وكيل التعلم المعزز ومعايير التصميم مثل شفرة أوكام للتركيز على العناصر الأكثر واعدة في الفرضيات المرشحة. يوضح المثال التالي عملية التفكير للتعبير الرياضي عن قانون نيوتن للجاذبية العالمية. تظهر مسارات البحث ذات الدرجات المنخفضة على شكل فروع رمادية في شجرة التعبير الرمزي. استرشادًا بالعمل المرتبط بأعلى مكافأة متوقعة،تتقارب هذه العملية التكرارية إلى تعبير رياضي يتوافق مع البيانات ويلبي معايير التصميم الأخرى.
تحسين مساحات الفرضيات القابلة للتفاضل
تعتبر المساحات القابلة للتفاضل مناسبة للطرق المعتمدة على التدرج، والتي يمكنها إيجاد حلول مثالية محلية بشكل فعال.لتفعيل التحسين القائم على التدرج، يتم استخدام طريقتين بشكل شائع:
* استخدام نماذج مثل VAEs لرسم خريطة للفرضيات المرشحة المنفصلة في مساحة قابلة للتفاضل الكامنة؛
* تخفيف الافتراض المنفصل إلى كائن قابل للتفاضل يمكن تحسينه في مساحة قابلة للتفاضل (يمكن أن يأخذ هذا التخفيف أشكالاً مختلفة، مثل استبدال المتغيرات المنفصلة بمتغيرات مستمرة، أو استخدام نسخة ناعمة من القيود الأصلية).
في الفيزياء الفلكية، تم استخدام VAEs لتقدير معلمات كاشف الموجات الثقالية استنادًا إلى نماذج موجة الثقب الأسود المدربة مسبقًا. تعتبر هذه الطريقة أسرع بستة أوامر من الطرق التقليدية. في علم المواد، يتم دمج القواعد الديناميكية الحرارية مع المشفرات التلقائية لتصميم مساحة كامنة قابلة للتفسير لتحديد خرائط البنية البلورية.

كما هو موضح في الشكل أعلاه، فإن المميزات الذكاء الاصطناعي هي نموذج ترميز ذاتي يقوم بربط الكائنات المنفصلة (مثل المركبات) بنقاط في مساحة كامنة مستمرة قابلة للتفاضل. تسمح هذه المساحة بتحسين الأهداف، مثل اختيار المركبات من المكتبات الكيميائية الكبيرة التي تعمل على تعظيم النقاط النهائية الكيميائية الحيوية المحددة. يصور المخطط المثالي المساحة الكامنة المكتسبة، مع وجود ألوان داكنة تشير إلى المناطق التي تتركز فيها الكائنات ذات درجات التنبؤ الأعلى. باستخدام هذه المساحة الكامنة، يمكن لمميز الذكاء الاصطناعي التعرف بكفاءة على الكائنات التي تعمل على تعظيم الخصائص المتوقعة لتعليقات النجمة الحمراء.
04 التجارب والمحاكاة المعتمدة على الذكاء الاصطناعي
يمكن أن تحل عمليات المحاكاة الحاسوبية محل التجارب المعملية المكلفة وتوفر إمكانيات اختبار أكثر كفاءة ومرونة.يمكن للتعلم العميق تحديد الفرضيات وتحسينها لإجراء اختبار فعال، كما يتيح لمحاكاة الكمبيوتر ربط الملاحظات بالفرضيات.
تقييم الفرضيات العلمية بكفاءة
توفر أنظمة الذكاء الاصطناعي أدوات التصميم التجريبي والتحسين.يمكن لهذه الأدوات تعزيز الأساليب العلمية التقليدية، وتقليل عدد التجارب المطلوبة وتوفير الموارد.
على وجه التحديد، يمكن لأنظمة الذكاء الاصطناعي أن تساعد في خطوتين رئيسيتين في الاختبار التجريبي: التخطيط والتوجيه. يوفر تخطيط الذكاء الاصطناعي نهجًا منهجيًا لتصميم التجارب وتحسين الكفاءة واستكشاف المناطق غير المعروفة. وفي الوقت نفسه، يوجه توجيه الذكاء الاصطناعي العملية التجريبية نحو فرضيات ذات إنتاجية عالية، مما يسمح للنظام بالتعلم من الملاحظات السابقة وضبط العملية التجريبية. يمكن أن تكون مناهج الذكاء الاصطناعي هذه مبنية على النماذج (باستخدام المحاكاة والمعرفة السابقة) أو خالية من النماذج، وتعتمد فقط على خوارزميات التعلم الآلي.

تُظهر الصورة أعلاه استخدام الذكاء الاصطناعي للتحكم في عملية الاندماج النووي المعقدة والديناميكية: ديجريف وآخرون. تم تطوير وحدة تحكم الذكاء الاصطناعي التي يمكنها تنظيم الاندماج النووي من خلال المجال المغناطيسي في مفاعل توكاماك. يتلقى وكيل الذكاء الاصطناعي قياسات في الوقت الفعلي لمستويات الجهد الكهربائي وتكوين البلازما ويتخذ إجراءات للتحكم في المجال المغناطيسي لتحقيق الأهداف التجريبية (مثل الحفاظ على مصدر الطاقة الطبيعي). يتم تدريب المتحكم من خلال المحاكاة وتحديث معلمات النموذج باستخدام وظيفة المكافأة.
استخلاص الملاحظات من الفرضيات باستخدام المحاكاة
تعتمد تقنية المحاكاة الحاسوبية الحالية بشكل كبير على الفهم البشري وإدراك الآليات الأساسية للنظام. يمكن لأنظمة الذكاء الاصطناعي تعزيز محاكاة الكمبيوتر من خلال التكيف بشكل أكثر دقة وكفاءة مع المعلمات الرئيسية للأنظمة المعقدة، وحل المعادلات التفاضلية التي يمكنها التحكم في الأنظمة المعقدة، ونمذجة حالات الأنظمة المعقدة.
خذ حقول القوة الجزيئية كمثال. وعلى الرغم من إمكانية تفسيرها، فإنها محدودة في تمثيل الوظائف المختلفة، وتتطلب عملية توليدها تحيزات استقرائية قوية وثروة من المعرفة العلمية. من أجل تحسين دقة المحاكاة الجزيئية، تم تطوير إمكانات عصبية تعتمد على الذكاء الاصطناعي تتكيف مع البيانات الميكانيكية الكمومية الدقيقة والمكلفة لتحل محل حقول القوة التقليدية.

في عمليات المحاكاة الحاسوبية للأنظمة المعقدة، يمكن لأنظمة الذكاء الاصطناعي تسريع اكتشاف الأحداث غير العادية، مثل التحولات بين الهياكل التكوينية للبروتين. كما هو موضح في الشكل أعلاه، وانج وآخرون. تم استخدام مقدر عدم اليقين القائم على الشبكة العصبية لتوجيه زيادة الطاقة الكامنة التي تعوض عن الطاقة الكامنة الأصلية، مما يسمح للنظام بالهروب من الحد الأدنى المحلي (الرمادي) واستكشاف مساحة التكوين بشكل أسرع. وقد يؤدي هذا النهج إلى تحسين كفاءة ودقة عمليات المحاكاة، مما يؤدي إلى فهم أعمق للظواهر البيولوجية المعقدة.

تجمع حلول الأعصاب بين الفيزياء ومرونة التعلم العميق:بناء الشبكات العصبية بناءً على المعرفة المجالية
05 الذكاء الاصطناعي للعلوم: طريق طويل لنقطعه
تساهم أنظمة الذكاء الاصطناعي في الفهم العلمي، وقد أثبتت قدرتها على دراسة العمليات والأشياء التي يصعب تصورها أو اكتشافها، وتوليد أفكار جديدة بشكل منهجي من خلال بناء نماذج من البيانات ودمج البيانات مع عمليات المحاكاة والحوسبة القابلة للتطوير. ومع ذلك، لضمان أمن وخصوصية الذكاء الاصطناعي،وتتطلب هذه العملية نشر التكنولوجيا الناضجة.
لاستخدام الذكاء الاصطناعي بشكل مسؤول في البحث العلمي، يحتاج الباحثون إلى قياس مستويات عدم اليقين والخطأ والفائدة لأنظمة الذكاء الاصطناعي. ومع استمرار تطور أنظمة الذكاء الاصطناعي، فمن المتوقع أن يفتح الذكاء الاصطناعي الباب أمام الاكتشافات العلمية التي كانت بعيدة المنال في السابق، ولكن لا يزال هناك طريق طويل يتعين قطعه فيما يتعلق بدعم النظريات والأساليب والبنية الأساسية للبرمجيات والأجهزة.
مراجع: