HyperAI초신경

다양한 소스의 식물 전사체 데이터를 통합하여 Shandong University of Technology와 다른 연구진은 최대 96%의 종간 lncRNA 예측 정확도를 갖춘 PlantLncBoost 모델을 구축했습니다.

特色图像

식물학 분야에서 긴 비암호화 RNA(lncRNA) 연구가 점차 주목받고 있습니다. 2020년에 발표된 식물 lncRNA 연구 논문은 lncRNA가 식물의 생장, 발달, 그리고 환경 적응에 핵심적인 역할을 한다는 점을 지적했습니다. 예를 들어, 일부 lncRNA는 단백질과 상호작용하여 식물의 개화 시기를 조절하고, 이를 통해 식물의 생식 전략에 영향을 미칠 수 있다는 연구 결과가 있습니다. 이러한 정교한 조절 기전은 식물이 기후 변화와 같은 환경적 압력에 어떻게 대처하는지 이해하는 데 매우 중요합니다.

기술의 발전으로 점점 더 많은 식물 lncRNA가 확인되고 특성화되었습니다. 그러나 서로 다른 종 간의 lncRNA 서열 보존이 부족하여 머신 러닝 모델의 일반화 능력에 큰 어려움을 야기합니다. 예를 들어, 초기에 널리 사용되었던 CPC와 CPAT 도구를 살펴보면, 벼과(Poaceae)와 콩과(Leguminosae) 식물 간의 교차 검증 정확도가 상동 종 대비 35%~40% 감소하여 서열 특징의 일반화 능력이 부족하다는 핵심 문제가 드러났습니다.부스팅 모델(예: XGBoost 및 LightGBM)은 고차원 데이터를 처리할 때 과잉적합 방지 성능이 더 뛰어나지만, 기존 연구에서는 여전히 기능 엔지니어링의 체계적인 최적화가 부족합니다.과학자들은 식물에서 lncRNA를 정확하게 예측하고 분석하기 위해서는 이러한 다양성에 적응할 수 있는 새로운 방법론이 개발되어야 한다는 것을 인지하고 있습니다. 최근 몇 년 동안 연구자들은 lncRNA 식별의 정확도를 높이기 위해 모델 선택, 하이퍼파라미터 최적화, 특징 추출 등 다양한 전략을 제안해 왔습니다.

최근 산둥이공대학교는 베이징임업대학교, 광둥농업과학원, 상파울루대학교, 로잘린드 프랭클린 의과대학교, 우메오대학교 등 여러 연구 기관과 협력하여 학제간 연구팀을 구성하여 식물 lncRNA 식별 분야에서 중요한 기술적 돌파구를 마련했습니다. 이 연구는 모델 선택, 하이퍼파라미터 최적화, 그리고 특징 엔지니어링이라는 세 가지 핵심 측면에 중점을 두었습니다.푸리에 변환과 섀넌 엔트로피와 같은 수학적 이론을 기반으로 한 219개의 새로운 시퀀스 기술자가 처음으로 특징 공간에 통합되었으며, 재귀적 특징 제거(RFE) 알고리즘을 통해 1,652개의 후보 특징 중에서 종 간 구별 기능이 있는 3개의 핵심 매개변수가 걸러졌습니다.이를 기반으로 구축된 PlantLncBoost 모델은 다양한 과와 속에 속하는 12개 식물 데이터 세트의 교차 검증에서 평균 91.7%의 예측 정확도를 달성했으며, 기존 주류 도구보다 18.2%가 향상되어 식물 lncRNA 식별의 일반화 문제에 대한 체계적인 솔루션을 제공했습니다.

관련 연구 결과는 학술지 New Phytologist에 "PlantLncBoost: 식물 lncRNA 식별을 위한 주요 특징과 정확도 및 일반화의 상당한 개선"이라는 제목으로 게재되었습니다.

서류 주소: 

https://go.hyper.ai/F7pkc

더 많은 AI 프런티어 논문:

https://go.hyper.ai/owxf6

데이터 세트: 다중 소스 이질 식물 전사체 데이터 통합 및 기능 시스템 구축

데이터 인프라 구축 측면에서 연구팀은 모델 개발 및 검증을 지원하기 위해 다중 소스의 이기종 식물 전사체 데이터를 통합했습니다.

이 연구에서 학습에 사용된 핵심 데이터 세트는 Cinnamomum camphora, Arabidopsis thaliana, 벼를 포함한 9가지 속씨식물의 lncRNA와 mRNA 시퀀스를 포함합니다.GreeNC 데이터베이스에서 총 24,152개의 lncRNA 시퀀스가 얻어졌습니다.데이터베이스는 엄격한 품질 관리 기준을 사용하여 데이터의 높은 신뢰성을 보장합니다.동일한 수의 mRNA 단백질 서열은 Phytozome v.13 데이터베이스에서 나왔습니다.데이터 전처리 단계에서는 CD-HIT-EST 알고리즘을 사용하여 서열 유사성이 80%를 초과하는 중복 전사본을 제거하고 모호한 뉴클레오티드 "N"을 포함하는 노이즈 서열을 제거하여 균형 잡히고 순수한 지도 학습 학습 세트를 형성했습니다.

모델 성능 평가 단계에서 연구팀은 두 가지 주요 테스트 세트를 구성했습니다.첫 번째는 옥수수와 포도와 같은 속씨식물부터 클라미도모나스 레인하르티(Chlamydomonas reinhardtii)와 같은 조류, 그리고 피스코미트렐라 파텐스(Physcomitrella patens)와 같은 이끼류까지 20종의 lncRNA 서열을 포함하는 포괄적인 테스트 세트입니다. 이 중 13종은 훈련 세트에 포함되지 않았습니다. 종 범위는 식물계의 여러 주요 계통을 아우르는 넓은 범위를 포함합니다. 두 번째는 높은 신뢰도를 가진 실험적 검증 세트입니다. 이 데이터 세트는 EVLncRNAs와 PlncDB 데이터베이스의 내용을 통합합니다. 중복 제거 후, 최종적으로 20종의 식물을 포함하는 358개의 고유한 lncRNA가 확보되었으며, 그중 12종의 lncRNA 서열은 훈련 및 테스트 과정에 포함되지 않았습니다. 이를 통해 모델의 종간 일반화 능력에 대한 엄격한 검증이 보장되었습니다. 이 데이터는 체계적인 중복 필터링, 품질 검사 및 교차 그룹 커버리지를 거쳤으며, 이는 훈련 데이터의 정확성을 보장할 뿐만 아니라 다단계 검증 시스템을 구축합니다.

또한,연구팀은 견고한 lncRNA 모델을 훈련하기 위한 주요 특징을 파악하기 위해 훈련 데이터 세트에서 1,662개의 특징 세트를 추출했습니다.이 기능 세트는 ORF 커버리지, k-mer 빈도, Fickett 점수와 같은 기존의 시퀀스 기반 지표는 물론, 복잡한 시퀀스 패턴을 포착하도록 설계된 새로운 수학적 기능까지 포함합니다. 구체적으로,그 중 1,433개의 특징은 기본 시퀀스 기술자이고, 133개의 특징은 수치 시퀀스 매핑과 푸리에 변환에서 나왔으며, 78개의 복잡한 네트워크 특징과 19개의 특징은 섀넌과 탤리스 엔트로피에서 나왔습니다.이러한 특징의 포괄성과 다양성은 모델 훈련과 최적화를 위한 풍부한 정보 기반을 제공하고, 식물 lncRNA를 식별하는 모델의 능력을 향상시키는 데 도움이 됩니다.

모델 학습을 위한 lncRNA 및 mRNA 데이터

PlantLncBoost 알고리즘: 효율적인 식물 lncRNA 예측 모델을 구축하기 위한 기능 협업 최적화

연구팀은 식물 장형 비번역 RNA(lncRNA) 예측 모델 PlantLncBoost를 구축하는 과정에서 알고리즘 성능 비교와 특징 엔지니어링 최적화를 통해 효율적이고 정확한 모델 개발을 달성했습니다.

PlantLncBoost 개발 프로세스

알고리즘 선택 단계에서 연구팀은 5겹 교차 검증 방법을 사용하여 CatBoost, XGBoost, LightGBM의 세 가지 그래디언트 부스팅 알고리즘에 대한 포괄적인 성능 평가를 수행했습니다.결과에 따르면 CatBoost는 정확도(93.92%), 민감도(99.83%), F1 점수(94.30%)와 같은 주요 지표에서 다른 두 알고리즘보다 상당히 우수한 것으로 나타났습니다.

또한, CatBoost의 하이퍼파라미터 최적화에는 단 14.45분만 걸렸습니다.XGBoost의 164.18분과 LightGBM의 55.67분과 비교했을 때 압도적인 효율성 우위를 보여줍니다. 동시에 CatBoost는 모델 구축 시간과 예측 속도에서도 각각 19.41분과 10초 미만으로 우수한 성능을 보이며, 대규모 유전체 데이터 처리에 이상적인 선택입니다.

특징 선택 단계에서 연구팀은 랜덤 포레스트 중요성(RFI) 전략을 사용하여 1,662개의 후보 특징에서 핵심 변수를 선별했습니다.이 방법으로 구축한 모델은 5겹 교차 검증에서 94.21%의 정확도와 94.56%의 F1 점수를 달성하여 ANOVA(정확도 75%-79%)와 같은 기존 필터링 방법을 기반으로 한 모델보다 훨씬 우수한 성과를 보였습니다.

다양한 기능 선택 방법의 비교 평가

연구팀은 모델 평가를 통해 상위 1~20개 특징의 모델 성능을 추가로 평가했습니다. 아래 그림과 같이 RFI-3 모델의 ORF 커버리지, 복소 푸리에 평균, 원자 푸리에 진폭만 확인되었습니다.모델 성능은 최고조에 달했으며, 정확도와 F1 점수는 각각 94.35%와 94.68%에 도달했습니다.주목할 점은 특징의 개수가 3개를 넘으면 모델 성능이 크게 떨어지는데, 이를 통해 "가벼운 특징 세트"의 효과가 검증된다는 것입니다.

RFI 방식과 다양한 양적 특성에 따른 비교 평가

ORF 커버리지는 고전적인 생물학적 특성으로, lncRNA와 mRNA 사이의 개방 판독 프레임(ORF) 비율의 근본적인 차이를 활용합니다. 예를 들어, 애기장대에서 lncRNA의 최대 ORF 커버리지는 약 0.2인 반면, mRNA의 ORF 커버리지는 최대 0.7입니다. 아래 그림에서 볼 수 있듯이, 이 특성은 모델에 기본적인 구별 능력을 제공합니다. 복소 푸리에 평균과 원자 푸리에 진폭은 푸리에 변환에 기반한 혁신적인 수학적 특성으로, 복소 코딩 및 원자 번호 코딩 기술을 통해 시퀀스의 주파수 영역 신호와 구조적 특성을 포착합니다. 애기장대, 벼(Oryza sativa), 포플러(Populus trichocarpa)와 같은 모델 식물의 주성분 분석에서,이 두 가지 특징이 지배하는 첫 번째 주성분은 97%의 분류 분산을 설명하는데, 이는 ORF 범위에 의해 기여하는 두 번째 주성분을 보완하며, 함께 종간 강력한 구별 차원을 구성합니다.

3가지 모델 종의 3가지 주요 특징을 기반으로 한 lncRNA 및 mRNA의 주성분 분석

결정적인,PlantLncBoost 모델은 CatBoost 알고리즘의 효율적인 학습 능력과 세 가지 핵심 기능의 차별적 이점을 통합합니다.10겹 교차 검증에서 이 모델은 94.35% 정확도와 99.96% 민감도와 같은 핵심 지표를 통해 LncFinder-plant 및 CPAT-plant와 같은 기존 주류 도구를 능가했습니다. PlantLncBoost는 "경량 기능 세트 + 고성능 알고리즘"의 혁신적인 아키텍처를 구축하여 생물학적 해석 가능성과 공학적 실용성을 결합하여 식물 lncRNA의 정확한 식별을 위한 솔루션을 제공하고, 대규모 유전체 데이터 분석 요구를 충족하며, 식물 lncRNA의 종간 정확한 식별을 위한 강력한 새로운 도구를 제공합니다.

다단계 실험 검증 결과 PlantLncBoost가 종간 예측 성능이 가장 뛰어나다는 것이 밝혀졌습니다.

모델 성능 검증 단계에서 연구팀은 식물 lncRNA 예측의 종간 일반화와 신뢰성 측면에서 요구 사항을 충족하기 위해 다단계 실험 시스템을 신중하게 설계했습니다.

먼저, 연구팀은 20가지 다양한 식물(종자식물, 이끼류, 고균류 포함)을 포함하는 테스트 데이터셋을 기반으로 PlantLncBoost를 LncFinder-plant와 CPAT-plant를 포함한 9가지 주류 모델과 비교 평가했습니다. 아래 그림에서 볼 수 있듯이, 실험 결과는 다음과 같습니다.PlantLncBoost는 민감도(98.42%), 특이도(94.93%), 정확도(96.63%)와 같은 핵심 지표에서 포괄적인 선도적 이점을 보였으며, ROC 곡선은 이상적인 예측 영역에 더 가깝습니다(AUC는 98.35%에 도달).

20개 식물 데이터세트에 대한 10개 lncRNA 식별 도구의 성능 평가

특히 다음 표에서 보여지는 바와 같이 대부분의 종에서PlantLncBoost는 90% 이상의 특이도를 유지하면서 거의 100%의 민감도를 달성하여 "낮은 특이도, 높은 민감도"라는 기존 모델의 성능 병목 현상을 성공적으로 극복했습니다.반면, CPC2나 PLEK-plant 등의 도구의 정확도는 80%와 90% 사이에 불과해 복잡한 식물 계통 데이터에 대한 적응성이 부족한 것으로 나타났습니다.

20개 식물 데이터세트에 대한 10개 lncRNA 식별 방법의 전반적인 성능

lncRNA의 실험적 검증을 위한 엄격한 시험에서 연구팀은 358개의 고신뢰도 전사본이 포함된 데이터 세트를 사용했습니다. 그 결과는 다음과 같습니다.PlantLncBoost는 357개의 lncRNA를 성공적으로 식별하여(검출률 99.72%) LncFinder-plant에서 1위를 차지했습니다.CPAT 식물은 99.16%의 검출률로 밀을 바짝 뒤쫓았습니다. 유일하게 확인되지 않은 밀 lncRNA(TalncRNA18)는 회고적 분석을 통해 원래 주석이 구식 ORF 검출 도구에 의존했음이 밝혀졌습니다. 반면, 최신 다중 특징 모델은 긴 ORF(387개 아미노산으로 구성된 폴리펩타이드를 암호화)를 가지고 있다고 예측했습니다. 이는 해당 전사체가 잘못 분류된 코딩 RNA에 속할 가능성을 시사하며, PlantLncBoost 예측의 정확성을 간접적으로 확인시켜 줍니다.

다단계 실험 데이터를 통합한 PlantLncBoost는 교차진화적 그룹 예측과 고신뢰도 검증 세트 모두에서 뛰어난 안정성과 정확성을 보여 식물 lncRNA 식별 분야에서 선도적인 위치를 확립했습니다.

대학과 기업이 협력하여 식물 lncRNA 연구 및 응용 분야의 획기적인 발전을 추진합니다.

실제로 식물의 긴 비번역 RNA(lncRNA) 연구 분야에서는 대학의 과학 연구와 기업의 혁신이 시너지 효과를 내는 획기적인 발전을 이루는 추세가 형성되고 있습니다.

예를 들어, 베이징 대학 생명과학부의 덩싱왕(Deng Xingwang)과 주단멍(Zhu Danmeng)이 이끄는 팀은 식물 특이적 비번역 RNA인 HID1을 연구했습니다.아라비도프시스의 HID1 유전자좌 하류 1.8kb에 기능적으로 중복되는 상동 유전자 HIL1이 존재하는 것으로 밝혀졌습니다.마지막으로, 비코딩 RNA인 HID1 상동 유전자인 HIL1의 선택적 전사 억제에 대한 분자적 메커니즘이 밝혀졌고, 해당 연구 결과는 미국 국립과학원 회보에 게재되었습니다.

2024년 프랑스 파리-사클레 대학의 Soledad Traubenik 팀이 "식물생리학"에 발표한 리뷰 연구유전자 발현 분석과 RNA 시퀀싱 기술을 통해, COOLAIR lncRNA가 아라비도프시스 탈리아나의 춘화반응에 중요한 유전자인 FLC의 발현을 2차 구조를 변화시킴으로써 조절한다는 것을 발견했습니다.낮은 온도 스트레스 하에서의 동적 조절 모드는 작물 스트레스 저항성 육종을 위한 새로운 목표를 제공합니다.

논문 링크:

doi.org/10.1093/plphys/kiae034

케임브리지 대학의 Wolf Reik 팀이 개발한 단일 세포 RNA 시퀀싱 기술은237개의 세포 특이적으로 발현되는 lncRNA가 아라비도프시스 뿌리 끝 세포에서 발견되었습니다.17개 종의 250만 개 세포 데이터를 통합한 식물 단일 세포 lncRNA 데이터베이스(scPlantDB)가 구축되어 lncRNA의 시공간적 발현 패턴을 분석할 수 있는 오픈 소스 플랫폼을 제공합니다.

논문 링크:

www.plantcell.org/cgi/doi/10.1105/tpc.18.00785

기업 혁신 관행 측면에서 미국의 농업 기술 거대 기업인 몬산토는 BioDirect™ 기술 플랫폼을 활용합니다.유전체학과 천연 화합물을 결합하여 새로운 생물학 제제를 개발합니다.예를 들어, 콜로라도 황금딱정벌레를 표적으로 삼는 정밀 살충제는 유익한 곤충의 생태계를 보호하는 동시에 해충을 효과적으로 방제할 수 있습니다.

중국 신젠타 그룹은 배가반수체 기술과 유전자 편집 기술을 결합하여 옥수수 근친교배 품종 개발 주기를 4년에서 1년으로 단축하는 목표를 달성했습니다. 또한, 고처리량 분자 검출 플랫폼을 활용하여 해충 저항성 및 제초제 저항성 형질을 신속하게 통합했습니다. 2023년에 승인된 121개 품종 중 많은 지표가 업계를 선도하고 있습니다.

중국 생명공학 기업 베나젠(Benagen)이 개발한 전장 lncRNA 시퀀싱 기술은 나노포어(Nanopore) 플랫폼의 검출 병목 현상을 극복했습니다.RNA 선택적 스플라이싱과 새로운 전사체를 정확하게 분석할 수 있으며, 사과 껍질의 안토시아닌 축적 및 제브라피시의 신경독성 기전 연구에 적용되어 기초 과학 연구와 농업 육종의 변혁을 촉진하고 있습니다. 이러한 기술은 최첨단 알고리즘과 생명공학을 심층적으로 통합하여 작물 개량 및 생태 보호에 지능적인 솔루션을 제공합니다.

앞으로 lncRNA 연구가 심화되고 기술이 끊임없이 발전함에 따라 대학 과학 연구팀의 기초 연구 성과와 기업의 혁신적인 실천을 통해 식물 lncRNA가 생장, 발달 및 환경 적응에 미치는 핵심적 역할을 더욱 밝혀내고 이러한 결과를 실용적인 응용으로 전환하여 농업 생산의 지속 가능한 발전을 촉진하고 전 세계 농업 생산과 생태 균형에 새로운 활력을 불어넣을 것으로 기대됩니다.

참고문헌:

1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html