HyperAI

من خلال دمج بيانات النسخ الجيني للنباتات متعددة المصادر، قامت جامعة شاندونغ للتكنولوجيا وآخرون ببناء نموذج PlantLncBoost، مع دقة تنبؤ lncRNA بين الأنواع تصل إلى 96%

特色图像

في مجال علوم النبات، يتزايد التركيز تدريجيًا على دراسة الحمض النووي الريبوزي الطويل غير المشفر (lncRNA). وقد أشارت دراسة بحثية نُشرت عام ٢٠٢٠ حول هذا الحمض النووي الريبوزي في النباتات إلى دوره المحوري في نمو النبات وتطوره وتكيفه البيئي. على سبيل المثال، وجدت الدراسات أن بعض هذه الأحماض النووية يمكن أن تنظم وقت إزهار النباتات من خلال تفاعلها مع البروتينات، مما يؤثر على استراتيجية تكاثرها. تُعد هذه الآلية التنظيمية الدقيقة ذات أهمية بالغة لفهم كيفية تأقلم النباتات مع الضغوط البيئية، مثل تغير المناخ.

مع تقدم التكنولوجيا، تم تحديد وتوصيف المزيد من الحمض النووي الريبوزي غير المتماثل (lncRNAs) النباتي. ومع ذلك، نظرًا لضعف حفظ تسلسل الحمض النووي الريبوزي غير المتماثل بين الأنواع المختلفة، يُشكل ذلك تحديًا كبيرًا لقدرة نماذج التعلم الآلي على التعميم. على سبيل المثال، انخفضت دقة التحقق المتبادل بين نباتات الفصيلة النجيلية والبقولية بمقدار 35%-40% مقارنةً بالأنواع المتماثلة، مما يكشف عن المشكلة الأساسية المتمثلة في ضعف قدرة تعميم سمات التسلسل.على الرغم من أن نماذج التعزيز (مثل XGBoost و LightGBM) تظهر أداءً أفضل لمكافحة الإفراط في التجهيز عند معالجة البيانات عالية الأبعاد، إلا أن الأبحاث الحالية لا تزال تفتقر إلى التحسين المنهجي لهندسة الميزات.يدرك العلماء أنه من أجل التنبؤ الدقيق بـ lncRNAs وتحليلها في النباتات، لا بد من تطوير أساليب جديدة قادرة على التكيف مع هذا التنوع. في السنوات الأخيرة، اقترح الباحثون سلسلة من الاستراتيجيات، بما في ذلك اختيار النموذج، وتحسين المعاملات الفائقة، واستخلاص السمات، والتي تهدف إلى تحسين دقة تحديد lncRNAs.

مؤخرًا، شكلت جامعة شاندونغ للتكنولوجيا، بالتعاون مع جامعة بكين للغابات، وأكاديمية قوانغدونغ للعلوم الزراعية، وجامعة ساو باولو، وجامعة روزاليند فرانكلين للطب، وجامعة أوميا، ومؤسسات بحثية أخرى، فريقًا متعدد التخصصات، وحققوا تقدمًا تكنولوجيًا هامًا في تحديد الحمض النووي الريبوزي غير المشفر للنباتات. ركز البحث على ثلاثة جوانب أساسية: اختيار النموذج، وتحسين المعاملات الفائقة، وهندسة السمات.ولأول مرة، تم دمج 219 واصفًا جديدًا للتسلسل يعتمد على نظريات رياضية مثل تحويل فورييه وانتروبيا شانون في مساحة الميزة، وتم فحص ثلاثة معلمات أساسية ذات قدرات التمييز بين الأنواع من 1652 ميزة مرشحة من خلال خوارزمية إزالة الميزة المتكررة (RFE).حقق نموذج PlantLncBoost المبني على هذا الأساس دقة تنبؤ متوسطة تبلغ 91.7% في التحقق المتبادل من صحة 12 مجموعة بيانات نباتية من عائلات وأجناس مختلفة، وهو تحسن قدره 18.2% مقارنة بالأدوات السائدة الحالية، مما يوفر حلاً منهجيًا لمشكلة تعميم تحديد lncRNA النباتي.

وقد تم نشر نتائج البحث ذات الصلة في المجلة الأكاديمية New Phytologist تحت عنوان "PlantLncBoost: الميزات الرئيسية لتحديد lncRNA للنبات وتحسين كبير في الدقة والتعميم".

عنوان الورقة: 

https://go.hyper.ai/F7pkc

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:

https://go.hyper.ai/owxf6

مجموعة البيانات: دمج بيانات النسخ الجيني غير المتجانسة للنباتات متعددة المصادر وبناء نظام الميزات

وفيما يتعلق ببناء البنية التحتية للبيانات، قام فريق البحث بدمج بيانات النسخ الجيني غير المتجانسة للنباتات متعددة المصادر لدعم تطوير النموذج والتحقق منه.

تغطي مجموعة البيانات الأساسية المستخدمة للتدريب في هذه الدراسة تسلسلات lncRNA وmRNA من تسعة كاسيات البذور، بما في ذلك Cinnamomum camphora، و Arabidopsis thaliana، والأرز.تم الحصول على إجمالي 24152 تسلسل lncRNA من قاعدة بيانات GreeNC.وتستخدم قاعدة البيانات معايير صارمة لمراقبة الجودة لضمان موثوقية عالية للبيانات؛العدد المكافئ لتسلسلات البروتين المشفرة لـ mRNA جاء من قاعدة بيانات Phytozome v.13.في مرحلة معالجة البيانات المسبقة، تم استخدام خوارزمية CD-HIT-EST لإزالة النسخ المكررة ذات التشابه التسلسلي الذي يتجاوز 80%، والقضاء على تسلسلات الضوضاء التي تحتوي على نيوكليوتيدات غامضة "N"، وبالتالي تشكيل مجموعة تدريب تعليمية خاضعة للإشراف متوازنة ونقية.

في مرحلة تقييم أداء النموذج، قام فريق البحث ببناء مجموعتين رئيسيتين من الاختبارات.الأولى هي مجموعة اختبار شاملة، تحتوي على تسلسلات lncRNA لعشرين نوعًا، تتراوح من كاسيات البذور كالذرة والعنب إلى الطحالب كالكلاميدوموناس رينهاردتي والطحالب كالفسكوميتريلا باتنس. من بينها، لم يُدرج 13 نوعًا في مجموعة التدريب. تغطي الأنواع نطاقًا واسعًا، يشمل العديد من الفروع الرئيسية لمملكة النبات. أما الثانية، فهي مجموعة تحقق تجريبية عالية الثقة. تدمج هذه المجموعة البيانات محتويات قاعدتي بيانات EVLncRNAs وPlncDB. بعد إزالة التكرار، تم الاحتفاظ أخيرًا بـ 358 lncRNA فريدة، تشمل 20 نوعًا من النباتات، لم تُدرج تسلسلات lncRNA لـ 12 نباتًا منها في عملية التدريب والاختبار، مما يضمن اختبارًا دقيقًا لقدرة النموذج على التعميم بين الأنواع. لقد خضعت هذه البيانات لتصفية زائدة منتظمة، وفحص الجودة، وتغطية عبر المجموعات، مما لا يضمن دقة بيانات التدريب فحسب، بل يبني أيضًا نظام تحقق متعدد المستويات.

أيضًا،لتحديد الميزات الرئيسية لتدريب نماذج lncRNA القوية، استخرج فريق البحث مجموعة من 1662 ميزة من مجموعة بيانات التدريب.تغطي هذه المجموعة من الميزات مقاييس التسلسل التقليدية، مثل تغطية ORF، وتردد k-mer، ودرجة فيكيت، بالإضافة إلى ميزات رياضية جديدة مصممة لالتقاط أنماط التسلسل المعقدة. على وجه التحديد،ومن بينها، 1433 ميزة هي عبارة عن أوصاف تسلسل أساسية، و133 ميزة تأتي من رسم تسلسل رقمي وتحويل فورييه، وهناك 78 ميزة شبكة معقدة و19 ميزة من إنتروبيا شانون وتاليس.إن الشمولية والتنوع في هذه الميزات توفر قاعدة معلومات غنية لتدريب النموذج وتحسينه، وتساعد في تحسين قدرة النموذج على تحديد lncRNAs النباتية.

بيانات lncRNA وmRNA لتدريب النموذج

خوارزمية PlantLncBoost: ميزة التحسين التعاوني لبناء نموذج تنبؤ فعال لـ lncRNA النباتي

في عملية بناء نموذج التنبؤ بالحمض النووي الريبي الطويل غير المشفر للنبات (lncRNA) PlantLncBoost، حقق فريق البحث تطويرًا فعالًا ودقيقًا للنموذج من خلال مقارنة أداء الخوارزمية وتحسين هندسة الميزات.

عملية تطوير PlantLncBoost

خلال مرحلة اختيار الخوارزمية، أجرى فريق البحث تقييمًا شاملاً للأداء لثلاث خوارزميات تعزيز التدرج: CatBoost، وXGBoost، وLightGBM، باستخدام طريقة التحقق المتبادل الخماسية.وتظهر النتائج أن CatBoost يتفوق بشكل كبير على الخوارزميتين الأخريين في المؤشرات الرئيسية مثل الدقة (93.92%) والحساسية (99.83%) ونتيجة F1 (94.30%).

بالإضافة إلى ذلك، استغرق تحسين المعلمات الفائقة لـ CatBoost 14.45 دقيقة فقط.بالمقارنة مع زمن XGBoost البالغ 164.18 دقيقة وزمن LightGBM البالغ 55.67 دقيقة، يُظهر CatBoost كفاءةً فائقة. في الوقت نفسه، يُحقق CatBoost أداءً جيدًا في وقت بناء النماذج وسرعة التنبؤ، وهما 19.41 دقيقة وأقل من 10 ثوانٍ على التوالي، مما يجعله خيارًا مثاليًا لمعالجة البيانات الجينومية واسعة النطاق.

في مرحلة اختيار الميزة، استخدم فريق البحث استراتيجية أهمية الغابة العشوائية (RFI) لفحص المتغيرات الأساسية من 1662 ميزة مرشحة.حقق النموذج الذي تم إنشاؤه بهذه الطريقة دقة قدرها 94.21% ودرجة F1 قدرها 94.56% في التحقق المتبادل بخمسة أضعاف، متجاوزًا بكثير النماذج القائمة على طرق التصفية التقليدية مثل تحليل التباين (دقة 75%-79%).

التقييم المقارن لطرق اختيار الميزات المختلفة

قام فريق البحث بتقييم أداء النموذج لأفضل 1-20 ميزة من خلال تقييم النموذج. وكما هو موضح في الشكل أدناه، وُجد أن تغطية ORF، ومتوسط فورييه المركب، وسعة فورييه الذرية لنموذج RFI-3 هي فقط ما تم تقييمه.وصل أداء النموذج إلى ذروته، حيث وصلت الدقة ودرجة F1 إلى 94.35% و94.68% على التوالي.ومن الجدير بالذكر أنه عندما يتجاوز عدد الميزات 3، ينخفض أداء النموذج بشكل كبير، مما يؤكد فعالية "مجموعة الميزات خفيفة الوزن".

التقييم المقارن بناءً على طريقة طلب المعلومات والخصائص الكمية المختلفة

تغطية ORF، كسمة بيولوجية كلاسيكية، تستفيد من الاختلاف الجوهري في نسبة أطر القراءة المفتوحة بين lncRNA وmRNA. على سبيل المثال، في نبات أرابيدوبسيس، تبلغ ذروة تغطية ORF لـ lncRNA حوالي 0.2، بينما تصل تغطية ORF لـ mRNA إلى 0.7. وكما هو موضح في الشكل أدناه، تُزود هذه الميزة النموذج بقدرة تمييز أساسية. يُعدّ متوسط فورييه المركب وسعة فورييه الذرية سمتين رياضيتين مبتكرتين تعتمدان على تحويل فورييه، حيث تلتقط إشارات النطاق الترددي والخصائص الهيكلية للتسلسل من خلال تقنية الترميز المركب وترميز العدد الذري. في تحليل المكونات الرئيسية لنباتات نموذجية مثل نبات أرابيدوبسيس ثاليانا، والأرز (أوريزا ساتيفا)، والحور (بوبيولوس تريكوكاربا)،أوضح المكون الرئيسي الأول الذي يهيمن عليه هاتان الميزتان التباين في تصنيف 97%، والذي كان مكملًا للمكون الرئيسي الثاني الذي ساهمت به تغطية ORF وبني معًا بُعدًا قويًا للتمييز بين الأنواع.

تحليل المكونات الرئيسية لـ lncRNA وmRNA استنادًا إلى ثلاث سمات رئيسية لثلاثة أنواع من النماذج

أخير،يدمج نموذج PlantLncBoost قدرة التعلم الفعالة لخوارزمية CatBoost والمزايا التمييزية للميزات الأساسية الثلاثة.في عملية التحقق المتقاطع العشري، تجاوز النموذج الأدوات السائدة الحالية مثل LncFinder-plant وCPAT-plant بمؤشرات رئيسية مثل دقة 94.35% وحساسية 99.96%. وقد شكّل PlantLncBoost بنيةً مبتكرة تجمع بين "مجموعة ميزات بسيطة وخوارزمية عالية الأداء"، موفرًا حلاً يجمع بين قابلية التفسير البيولوجي والتطبيق العملي الهندسي لتحديد دقيق لـ lncRNAs النباتية، مما يلبي احتياجات تحليل البيانات الجينومية واسعة النطاق، ويوفر أداةً جديدةً فعّالة لتحديد دقيق لـ lncRNAs النباتية بين الأنواع.

تظهر التحقق التجريبي متعدد المستويات أن PlantLncBoost يتمتع بأداء تنبؤي رائد بين الأنواع

في مرحلة التحقق من أداء النموذج، قام فريق البحث بتصميم نظام تجريبي متعدد المستويات بعناية لتلبية احتياجات التنبؤ بـ lncRNA للنبات من حيث التعميم بين الأنواع والموثوقية.

أولاً، بناءً على مجموعة بيانات اختبارية تضم 20 نباتًا متنوعًا (تشمل النباتات البذرية والطحالب والعتائق)، قارن فريق البحث أداء PlantLncBoost بتسعة نماذج رئيسية، بما في ذلك LncFinder-plant وCPAT-plant. وكما هو موضح في الشكل أدناه، تُظهر النتائج التجريبية أنأظهر PlantLncBoost مزايا رائدة شاملة في المؤشرات الأساسية مثل الحساسية (98.42%)، والخصوصية (94.93%)، والدقة (96.63%)، وكان منحنى ROC الخاص به أقرب إلى منطقة التنبؤ المثالية (وصلت AUC إلى 98.35%).

تقييم أداء 10 أدوات لتحديد lncRNA على 20 مجموعة بيانات نباتية

وعلى وجه الخصوص، في معظم الأنواع، كما هو موضح في الجدول التالي،يمكن لـ PlantLncBoost تحقيق حساسية تصل إلى ما يقرب من 100% مع الحفاظ على خصوصية تزيد عن 90%، مما أدى بنجاح إلى اختراق عنق الزجاجة في الأداء للنموذج التقليدي "الحساسية العالية مع الخصوصية المنخفضة".على النقيض من ذلك، فإن دقة الأدوات مثل CPC2 وPLEK-plant تتراوح فقط بين 80% و90%، مما يدل على عدم القدرة الكافية على التكيف مع بيانات سلالة النبات المعقدة.

الأداء العام لعشر طرق لتحديد هوية lncRNA على 20 مجموعة بيانات نباتية

في اختبار دقيق للتحقق التجريبي من صحة lncRNA، استخدم فريق البحث مجموعة بيانات تحتوي على 358 نسخة عالية الثقة. وأظهرت النتائج أننجح PlantLncBoost في التعرف على 357 lncRNAs (معدل الكشف 99.72%)، محتلاً المرتبة الأولى مع LncFinder-plant.تبع CPAT-plant بدقة عالية، بمعدل اكتشاف بلغ 99.16%. وتبين من خلال تحليل رجعي أن الحمض النووي الريبوزي غير المحدد الوحيد للقمح (TalncRNA18) اعتمد في شرحه الأصلي على أداة كشف قديمة لإطار القراءة المفتوح (ORF)، بينما توقعت نماذج متعددة الميزات الحديثة أن يكون له إطار قراءة مفتوح طويل (يُشفّر بولي ببتيد من 387 حمضًا أمينيًا)، مما يشير إلى أن النسخة قد تنتمي إلى حمض نووي ريبوزي مُشفّر مُصنّف بشكل غير صحيح، مما يؤكد بشكل غير مباشر دقة تنبؤ PlantLncBoost.

من خلال دمج البيانات التجريبية متعددة المستويات، أظهر PlantLncBoost استقرارًا ودقة ممتازين في كل من التنبؤ بالمجموعة التطورية المتقاطعة ومجموعات التحقق عالية الثقة، مما أدى إلى ترسيخ مكانته المتقدمة في مجال تحديد lncRNA للنباتات.

تتعاون الجامعات والشركات لتحقيق اختراقات في أبحاث وتطبيقات lncRNA النباتية

في الواقع، في مجال أبحاث الحمض النووي الريبوزي الطويل غير المشفر للنباتات (lncRNA)، يشكل البحث العلمي الجامعي والابتكار المؤسسي اتجاهاً للاختراقات التآزرية.

على سبيل المثال، قام الفريق بقيادة دينج شينغوانج وتشو دانمينج من كلية العلوم الحياتية بجامعة بكين بدراسة الحمض النووي الريبوزي غير المشفر HID1 الخاص بالنباتات.وُجِد أن هناك جينًا متماثلًا زائدًا عن الحاجة وظيفيًا HIL1 على بعد 1.8 كيلو بايت أسفل موضع HID1 في نبات أرابيدوبسيس.وأخيرا، تم توضيح الآلية الجزيئية للتثبيط النسخي الانتقائي لجين HIL1 المتماثل للحمض النووي الريبي غير المشفر HID1، وتم نشر نتائج البحث في وقائع الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية.

دراسة مراجعة نشرت في مجلة "علم وظائف الأعضاء النباتية" من قبل فريق سوليداد تراوبينيك في جامعة باريس ساكلاي في فرنسا في عام 2024،ومن خلال تحليل التعبير الجيني وتقنية تسلسل الحمض النووي الريبي، وجد أن COOLAIR lncRNA ينظم التعبير عن الجين الرئيسي FLC في استجابة نبات أرابيدوبسيس للربيع عن طريق تغيير البنية الثانوية.يوفر وضع التنظيم الديناميكي تحت ضغط درجات الحرارة المنخفضة هدفًا جديدًا لتربية مقاومة إجهاد المحاصيل.

رابط الورقة:

doi.org/10.1093/plphys/kiae034

لقد طور فريق وولف ريك في جامعة كامبريدج تقنية تسلسل الحمض النووي الريبوزي للخلية الواحدة،تم العثور على 237 من lncRNAs المعبر عنها بشكل خاص في خلايا طرف جذر نبات أرابيدوبسيس.تم إنشاء قاعدة بيانات lncRNA أحادية الخلية النباتية (scPlantDB)، والتي تدمج 2.5 مليون بيانات خلية من 17 نوعًا، مما يوفر منصة مفتوحة المصدر لتحليل أنماط التعبير المكانية الزمنية لـ lncRNAs.

رابط الورقة:

www.plantcell.org/cgi/doi/10.1105/tpc.18.00785

وفيما يتعلق بممارسات الابتكار في الشركات، تعتمد شركة مونسانتو العملاقة للتكنولوجيا الزراعية في الولايات المتحدة على منصة التكنولوجيا BioDirect™.الجمع بين علم الجينوم والمركبات الطبيعية لتطوير مواد بيولوجية جديدة،على سبيل المثال، يمكن للمبيدات الحشرية الدقيقة التي تستهدف خنافس كولورادو الذهبية أن تسيطر بشكل فعال على الآفات مع حماية بيئة الحشرات المفيدة.

حققت مجموعة سينجينتا الصينية هدفها المتمثل في تقصير دورة إنتاج سلالات الذرة المهجنة داخليًا من أربع سنوات إلى عام واحد، وذلك من خلال الجمع بين تقنية مضاعفة الصبغيات الأحادية وتعديل الجينات، واستخدمت منصة كشف جزيئي عالية الإنتاجية لدمج السمات المقاومة للحشرات ومبيدات الأعشاب بسرعة. ومن بين الأصناف الـ 121 المعتمدة في عام 2023، تتصدر العديد من المؤشرات هذا المجال.

تمكنت تقنية تسلسل lncRNA كاملة الطول التي طورتها شركة التكنولوجيا الحيوية الصينية Benagen من اختراق عنق الزجاجة للكشف عن منصة Nanopore.يمكنه تحليل الربط البديل للحمض النووي الريبي (RNA) والنسخ الجديدة بدقة، وقد طُبّق في أبحاث تراكم الأنثوسيانين في قشر التفاح وآلية السمية العصبية في سمك الزرد، مما يُسهم في تطوير البحث العلمي الأساسي والتربية الزراعية. تدمج هذه الممارسات الخوارزميات المتطورة بشكل عميق مع التكنولوجيا الحيوية، مما يوفر حلولاً ذكية لتحسين المحاصيل وحماية البيئة.

في المستقبل، مع تعميق أبحاث lncRNA والتقدم المستمر للتكنولوجيا، من المتوقع أن تكشف نتائج البحث الأساسية لفرق البحث العلمي الجامعية والممارسات المبتكرة للمؤسسات عن الدور الرئيسي لـ lncRNA النباتي في النمو والتطور والتكيف البيئي، وتحويل هذه النتائج إلى تطبيقات عملية، وتعزيز التنمية المستدامة للإنتاج الزراعي، وحقن حيوية جديدة في الإنتاج الزراعي العالمي والتوازن البيئي.

المقالات المرجعية:

1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html