과학자들은 220종의 해양 박테리아를 기반으로 게놈 규모 모델을 사용하여 종속영양 미생물 분류 체계를 재구성하고 8가지 유형의 대사 미생물군을 식별했습니다.

6일 전

숲은 지구의 허파로, 바다는 심장으로 불립니다. 광활한 바다는 수만 종의 미생물이 서식하는 곳으로, 이들은 유기물 변환을 조절하고 고유한 대사 특성을 통해 탄소 고정 및 방출 과정을 주도하는 복잡한 군집을 형성하여 지구 탄소 순환, 기후 변화, 해양 생물 다양성에 지대한 영향을 미칩니다. 특히 해양 종속영양 미생물은 해양 생태계 내에서 "정화 장치" 역할을 하며 유기물 분해라는 핵심 기능을 수행함으로써 지구 물질 순환과 생태 균형을 유지하는 데 기여합니다.

오랫동안 해양 종속영양 미생물은 크게 두 가지 범주, 즉 풍부영양성 미생물과 빈영양성 미생물로 분류되어 왔습니다. 전자는 유기물 함량이 높은 환경에서 번성하는 반면, 후자는 자원이 부족한 환경에서 느린 속도로 생존합니다. 오랫동안 사용되어 온 이러한 전통적인 "이분법"은 생지화학 연구에 어느 정도 도움이 되었지만, 중요한 한계점도 가지고 있습니다. 성장 속도가 기질 이용 선호도 및 대사적 생태적 지위와 동일시될 수 없기 때문입니다. 마치 사람의 식습관을 단순히 섭취하는 음식의 양으로만 분류할 수 없는 것처럼, "무엇을 좋아하는지"가 유기물 분해 속도를 결정하고 탄소 순환의 방향을 조절하는 핵심 요소입니다.

이 문제를 해결하기 위해 남캘리포니아 대학교가 주도한 연구팀은 해양 미생물 데이터베이스(OMD)를 활용하여 게놈 규모 대사 모델(GEM)을 통해 방대한 양의 해양 박테리아 게놈을 분석했습니다. 그들은 11가지 유형의 유기 기질 이용에 대한 미생물의 민감도를 정량화함으로써 궁극적으로 기존의 "이분법적" 틀을 깨뜨렸습니다.대사 활동에 따라 여덟 가지 범주의 미생물군이 구분되었다. 빠르게 성장하는 부영양성 미생물군 한 범주, 기질 특이적으로 느리게 성장하는 빈영양성 미생물군 세 범주, 그리고 기질에 특화된 중간 성장 미생물군 네 범주가 있다.

"해양 미생물 종속영양생물의 대사적 서식지 정의"라는 제목의 이번 연구 결과는 Science Advances에 발표되었습니다.

연구 하이라이트:

* 기존의 "이분법적" 틀에서 벗어나, 실제 대사 전략과 기질 선호도를 기반으로 미생물 특유의 대사적 틈새를 확립합니다.

* 본 연구는 8개의 기능성 미생물 군집을 기반으로 해양 종속영양 미생물의 성장 패턴, 자원 경쟁 모델 및 전 세계 지리적 분포를 체계적으로 밝혀내어 미생물이 해양 탄소 순환을 주도하는 내재적 메커니즘을 규명한다.

* 해양 종속영양 미생물의 지구 탄소 순환 참여에 관한 연구 공백을 메우고, 생지화학 모델의 개선 방안 및 매개변수 체계를 더욱 정교하게 제시한다.

서류 주소:
https://www.science.org/doi/10.1126/sciadv.adz0537

데이터셋: 220가지 서로 다른 해양 박테리아 범주를 포함

본 연구는 microbiomics.io 플랫폼에서 호스팅되는 OMD 데이터베이스의 대규모 해양 미생물 게놈 데이터 세트를 기반으로 합니다.이 데이터베이스에는 약 35,000개의 미생물 게놈이 포함되어 있습니다.여기에는 메타게놈 방식으로 조립된 게놈, 단일 세포 증폭 게놈, 그리고 인위적으로 분리 및 배양된 균주의 게놈이 포함됩니다.

본 연구에서는 무결성이 80% 이상이고 오염률이 5% 미만인 세균 게놈만을 포함했습니다. 두 값 세트는 CheckM과 Anvi'o 소프트웨어의 평균 점수를 각각 사용하여 계산했습니다. 이후 연구진은 OMD 데이터베이스의 메타데이터를 활용하고 dRep 소프트웨어를 사용하여 평균 뉴클레오티드 유사도(ANI) 임계값 95%를 기준으로 게놈에서 중복을 제거했습니다.

광합성 독립영양 남세균(외생균군) 180종을 제거한 후,최종적으로 중복 제거 후 3,738개의 고품질 종속영양 세균 게놈을 얻었다.이는 본 연구의 기본 분석 데이터 세트를 구성합니다. 이 데이터 세트는 220개의 서로 다른 해양 박테리아 범주를 포함하며, 그중 14개 그룹에는 50개 이상의 게놈이 포함되어 있습니다.

계통수 구축 과정에서 외집단으로 180개의 남세균 게놈을 유지하는 것 외에도 BiGG 데이터베이스에서 66개의 세균 참조 게놈을 추가하여 총 3,984개의 게놈을 사용했습니다. 표적 단일 복제 유전자의 일치도가 불충분한 8개의 게놈은 계통수에서 제외되었습니다.최종적으로 3,976개의 식물이 발달 계통도를 구축하는 데 사용되었습니다.전체 게놈 분류 정보는 GTDB-Tk v2.1.0 및 GTDB r214 데이터베이스를 사용하여 계통수에 표시되었습니다.

자기조직화 맵 신경망은 대사적 틈새를 분류하는 데 사용됩니다.

전통적인 "이분법적" 틀의 한계를 극복하기 위해,본 연구는 유전체학, 제약 조건이 있는 대사 시뮬레이션, 비지도 학습 기법을 통합하여 유전 정보에서 미생물 생태형 분류에 이르는 완전한 분석 프레임워크를 구축합니다.대사 모델링, 기질 민감도 정량화 및 미생물 군집 클러스터링은 다양한 유형의 현장 측정 및 전 세계 환경 데이터 세트를 사용하여 계층적으로 완료되었습니다.

모델링 및 품질 관리

모델 구축 단계에서 연구진은 통합 모델링 전략을 활용했습니다.CarveMe v1.5.1 소프트웨어를 사용하여 3738종의 해양 종속영양세균 균주 각각에 대해 60개의 독립적인 대사 모델(모델 세트)을 구축했습니다.

구체적으로, CarveMe 소프트웨어의 모델링 원리는 일반적인 대사 모델 아키텍처에 기반합니다. 입력된 게놈 주석 정보에서 각 생화학 반응의 존재 여부를 바탕으로 각 반응 단계에 가중치를 부여하여 일반 모델을 초기화하고 해당 게놈의 대사 모델을 예측합니다. 본 연구에서는 단일 게놈의 반응 프로파일을 포괄하는 데 필요한 모델 반복 횟수를 종합적으로 탐색했습니다. 그 결과, 앙상블에 포함된 모델 수가 약 60개에 도달했을 때 새로 추가되는 반응의 총 개수가 비교적 안정화되는 것을 확인했습니다.이는 60개의 모델 세트가 단일 게놈에 대해 가능한 대부분의 대사 모델 조합을 포괄할 수 있음을 보여줍니다.

CarveMe의 출력 대사 모델의 품질을 정량화하기 위해, 본 연구에서는 다음과 같은 공식으로 표현되는 일관성 점수 지수 C를 평가 지표로 처음 도입했습니다.

이 공식에서 Xmr은 독립적으로 구축된 M개의 모델에서 앙상블 모델 반응의 "존재-삭제 행렬"을 나타냅니다. r은 단일 생화학적 반응을 의미하고, R은 전체 모델 세트의 총 반응 수이며, I는 m번째 앙상블 하위 모델에 반응 r이 존재하는지 여부를 판단하는 데 사용되는 지표 함수입니다. 이후 분석에서는 일관성 점수가 0.8 이상인 유전체 샘플만 유지했으며, 총 1,578개의 유전체가 사용되었습니다.

대사 전략 평가

연구자들은 대사 전략을 유기체의 성장에 선호하는 기질 집합으로 정의하며, 그들의 방법론은 일련의 민감도 분석을 통해 이러한 전략을 해석하는 것을 포함합니다.

구체적으로,연구진은 COBRApy v0.25.0 소프트웨어 패키지에 포함된 플럭스 균형 분석(FBA) 툴킷을 사용하여 "기질 충분" 및 "기질 제한" 기질 공급 조건 모두에서 CarveMe 모델에 대한 성장 민감도 테스트를 수행했습니다. "기질 제한" 조건은 특정 종류의 화합물의 이용 가능한 플럭스를 유기체가 "기질 충분" 조건에서 흡수할 양의 50%로 줄임으로써 설정됩니다.

서로 다른 모델 간의 기질 요구량 차이를 정량화하기 위해 아래와 같이 민감도 계수 지수 S를 제안합니다.

위 공식에서 μn은 기질 n이 제한적인 조건에서의 예측 성장률을 나타내고, μ는 기질이 풍부한 조건에서의 예측 성장률이며, f는 기질 제한 계수(본 연구에서는 0.5로 설정)이다. 민감도 계수 S는 [0,1]의 범위를 가지며, 기질 공급량을 50%만큼 줄였을 때 모델로 계산된 성장률이 50%만큼 감소하면 해당 기질이 생물체의 성장에 완전한 제한 요인으로 작용한다고 판단한다(성장 민감도 1). 모델 성장률에 변화가 없으면 해당 기질의 공급이 생물체의 성장에 영향을 미치지 않는다고 판단한다(성장 민감도 0).

또한, 기질 제한 정도와 성장 속도 감소 정도의 비율이 0.8 이상일 때(S ≥ 0.8), 해당 모델은 그러한 기질에 대해 상당한 성장 민감도를 갖는 것으로 간주된다.

비지도 학습에서의 클러스터링 분석

이 연구의 머신러닝 부분에서는 자기조직화 맵(SOM)을 활용하여 대사적 틈새를 구분했습니다. SOM은 방대한 고차원 데이터셋의 차원을 위상 구조를 가진 2차원 격자 공간으로 축소할 수 있는 비지도 머신러닝 알고리즘입니다.

클러스터링에 앞서 연구진은 위에서 얻은 1,578개의 게놈에 대해 데이터 스크리닝을 수행하고, 60개의 하위 모델 모두에서 다양한 대사산물의 성장 민감도 변이를 계산했습니다. 기질 민감도 변이의 총합이 0.1보다 큰 100개의 게놈을 제거하여 1,478개의 게놈을 남겼습니다. 총 88,680개의 유효 데이터 세트(1,478개 게놈 × 60개 앙상블 모델)가 SOM 클러스터링 분석에 사용되었습니다. 각 데이터 포인트에는 11개의 대사 민감도 특성 지표가 포함되어 있습니다.

구체적인 설정 측면에서, 본 연구에서는 표준화된 화합물 플럭스 예측 데이터를 처리하기 위해 Kohonen v3.0.12 소프트웨어를 사용했습니다. 20 x 20 토러스형 육각형 격자(공간적 거리는 표준 유클리드 거리로 표현)에서 1,500회 반복 계산을 수행했습니다. 학습률 매개변수는 (0.025, 0.01)로 설정했으며, 인접 영역 반경은 소프트웨어의 기본값을 사용했습니다.

충분한 학습을 거친 후, 성장 화합물 민감도 예측 결과의 일관성을 바탕으로 K-평균 클러스터링 알고리즘을 채택하였다.SOM 지도는 최종적으로 8개의 차별적인 클러스터로 나뉘었습니다.

군집화 후 최대 성장 속도의 차이를 평가하기 위해, 본 연구에서는 gRodon을 사용하여 1478개 게놈 전체의 dCUB를 계산하고 이를 바탕으로 빠른 성장 유형과 느린 성장 유형으로 분류했습니다. Tara Oceans, BioGeoTraces, Malaspina를 비롯한 여러 데이터 세트와 McNichol 등이 구축한 글로벌 ASV 데이터 세트에서 얻은 1209개의 메타게놈 데이터를 기반으로, 8개 박테리아 군집의 전 세계적 지리적 분포를 검증했습니다.

기질 선호도와 성장 속도를 기준으로 8개의 대사 클러스터로 분류되었다.

본 연구는 다양한 실험 결과를 제시하여 모델의 성능을 검증할 뿐만 아니라, 더욱 중요한 것은 기존의 "이분법적" 틀을 깨고 완전히 새로운 분류 논리를 제안하며, 기질 선호도와 대사적 서식지 사이의 내재적 관계를 구축한다는 점입니다.

모델 검증 결과

연구진은 186종의 해양 미생물의 탄소원 선호도에 대한 대규모 배양 실험을 통해 CarveMe 모델이 기질 선호도를 얼마나 정확하게 포착하는지 검증했습니다. 구체적으로, Gralka 등이 연구한 게놈에 대한 CarveMe 모델을 구축하고, 동일한 탄소원 조건에서 이들 미생물의 성장을 테스트하기 위해 FBA를 이용한 컴퓨터 시뮬레이션 실험을 수행했습니다.

결과는 다음과 같습니다기존 문헌의 실험 데이터와 비교했을 때, 모델 예측 결과는 75.51 TP3T 및 87.41 TP3T의 정확도를 달성했습니다.연구진은 이 결과가 무작위 예측보다 유의미하게 우수한지 평가하기 위해 무작위 예측에 대한 부트스트랩 분석을 수행했으며, 그 결과 모델의 정확도가 무작위 수준보다 유의미하게 높은 것으로 나타났습니다.

8가지 유형의 박테리아 유형 분석 결과

1,478개의 게놈 서열과 11개의 민감한 지표를 기반으로,본 연구는 SOM 클러스터링을 통해 서로 다르게 발현되는 8개의 대사 미생물 군집을 식별하고, 성장 속도에 따라 빠른 군집, 중간 군집, 느린 군집의 세 가지 주요 그룹으로 분류했습니다.구체적으로 (아래 이미지 참조):

범주 1: 빠르게 성장하는 부영양 미생물군(클러스터 6): 이는 전형적인 부영양 미생물군으로, 79.5% 게놈은 최대 게놈 성장 속도가 느린 성장 임계값(dCUB < -0.08은 빠른 성장 임계값이며, dCUB 값이 작을수록 성장이 빠름)보다 높다고 예측합니다. 분류학적 관점에서 클러스터 6의 대표적인 예로는 Enterobacterales, Flavobacteriales, Rhodobacterales 및 Pseudomonasales가 있습니다. 이러한 유형의 미생물군은 기질의 영향을 거의 받지 않으며, 테스트한 11가지 화합물 중 어느 하나라도 없어도 성장이 억제되지 않았습니다.

기질 특이적이고 성장 속도가 느린 빈영양성 세균 그룹 세 개(클러스터 1, 클러스터 5, 클러스터 8): 이들 그룹의 dCUB 값은 -0.111입니다. 그중 클러스터 5(61.81 TP3T)는 최대 성장 속도가 가장 낮으며, 대표적인 종으로는 Opitutales(Verrucomicrobiota)와 Pelagibacterales가 있습니다. 이들 종의 클러스터 5 내 농축도는 각각 4351 TP3T와 3621 TP3T에 달합니다.

기질 특이적 중간 성장 세균 그룹 4개(클러스터 2, 3, 4, 7): 이 그룹들은 클러스터 6보다 성장 속도가 현저히 낮지만 클러스터 5보다는 현저히 높을 것으로 예측되었다. 클러스터 3은 클러스터 1과 8보다 성장 속도가 현저히 우수했다. 이 네 가지 중간 성장 세균 그룹은 각각 아미노산, 카르복실산, 탄수화물, 비타민 B군 중 한 가지 유형의 화합물에만 성장 반응 민감성을 보였다.

또한, 중간 성장 단계 미생물 군집의 특성은 해양 심층 환경에서 우세한 종속영양 미생물 집단이 느리게 성장하는 부영양 세균일 수 있다는 최근 연구 결과를 뒷받침합니다. 이러한 발견은 이들 미생물을 탄수화물 선호도를 보이는 클러스터 4와 같은 대사 기능 그룹으로 분류하는 기초를 제공할 수 있습니다.

마지막 말

요약하자면, 본 연구는 수십 년 동안 이어져 온 부영양/빈영양 생태계의 "이분법적" 틀에서 벗어나 유전자 및 기질 이용의 본질에 기반한 8개 범주의 대사 생태계 분류 체계를 구축함으로써, 기존의 5개 범주와 생리적 기능 간의 내재적인 연관성을 해소한다.

더 나아가, 이 새로운 분류 체계는 해양에 존재하는 수많은 종속영양 미생물의 복잡한 구조를 단순화합니다. 향후 이 체계를 전 지구적 생지화학 모델에 통합하면 수만 종에 달하는 해양 박테리아를 개별적으로 기록할 필요가 없어집니다. 단 8개의 기능적 매개변수만으로 해양 유기물 분해 및 탄소 균형 변화를 추론할 수 있어, 지구 온난화 상황에서 해양 탄소 순환의 변화를 평가하는 완전히 새로운 이론적 도구를 제공합니다.