Une Équipe Interdisciplinaire De La Carnegie Institution a Réussi À Capturer Des Preuves De Vie Remontant À 3,3 Milliards d'années En Utilisant Un Modèle De Forêt Aléatoire Basé Sur 406 échantillons.

Le décryptage des molécules organiques enfouies profondément sous la surface terrestre, dans d'anciennes couches rocheuses, est crucial pour comprendre l'histoire de la Terre et étudier l'évolution de la vie. Ces témoins potentiels de l'activité vitale peuvent non seulement percer les mystères de la naissance de la vie sur Terre, notamment en éclairant l'origine de la photosynthèse et le lien avec l'oxydation atmosphérique, mais aussi combler les lacunes de la chronologie de l'évolution de la vie, fournissant des indices essentiels à la compréhension de la formation des écosystèmes primitifs. Cependant, contrairement aux grands organismes qui forment des fossiles visibles, ces « témoins » ont disparu depuis longtemps sans laisser de traces, victimes de l'érosion géologique.Par conséquent, l'identification de traces de vie à partir de restes organiques fortement dégradés est devenue un défi majeur dans les domaines de la paléontologie et des sciences de la Terre.
Pendant longtemps, les scientifiques se sont principalement appuyés sur la morphologie des fossiles paléontologiques et l'analyse isotopique pour explorer les origines de la vie. Cependant, ces méthodes sont souvent limitées par l'état de conservation des échantillons : par exemple, les traces claires de molécules complexes telles que les lipides et les porphyrines ne remontent qu'à environ 1,6 milliard d'années, une période bien plus courte que l'apparition de la vie telle que révélée par d'autres indices. De plus, l'origine des molécules organiques dans les roches archéennes demeure incertaine, et la frontière entre les origines biogéniques et abiotiques est difficile à déterminer, autant d'éléments qui ont maintenu de nombreuses découvertes majeures au stade de la spéculation.
Afin de sortir de cette impasseSous l'égide du Laboratoire de la Terre et des planètes de la Carnegie Institution for Science, et en collaboration avec une équipe interdisciplinaire composée de nombreuses universités et institutions de recherche du monde entier, une solution de « convergence technologique » a été proposée.Ils ont d'abord utilisé la pyrolyse-chromatographie en phase gazeuse-spectrométrie de masse (py-GC-MS) pour l'analyse, puis des méthodes d'apprentissage automatique supervisé pour classer et discriminer les données analysées, capturant ainsi d'anciennes traces de vie dans les fragments moléculaires chaotiques.
Les expériences montrent que le modèle intégrant ces technologies donne des résultats supérieurs aux attentes. Il permet de distinguer avec précision la matière organique moderne de la matière organique d'origine météorique ou fossile avec une résolution de 1001 TP3T, et les tissus végétaux fossiles de la matière organique d'origine météorique avec une précision de 971 TP3T. Plus important encore, appliqué à des échantillons inconnus, le modèle a permis d'identifier avec succès des traces d'assemblages moléculaires biogéniques dans des roches paléoarchéennes et néoarchéennes datant respectivement de 3,33 milliards et 2,52 milliards d'années. Ceci apporte un nouvel éclairage méthodologique sur l'exploration des traces de vie plus anciennes et moins bien conservées.
Les recherches connexes, intitulées « Preuves géochimiques organiques de la vie dans les roches archéennes identifiées par pyrolyse-GC-MS et apprentissage automatique supervisé », ont été publiées dans les Actes de l'Académie nationale des sciences (PNAS).
Points saillants de la recherche :
* L'approche de fusion technologique proposée surmonte les limitations traditionnelles, relevant le défi fondamental de la distinction des molécules après dégradation en combinant la chromatographie en phase gazeuse par pyrolyse-spectrométrie de masse avec l'apprentissage automatique.
* L'échantillon de recherche couvre un large éventail, allant de la vie moderne aux roches datant de milliards d'années, des organismes terrestres aux météorites extraterrestres, offrant une comparaison complète pour l'entraînement du modèle.
* Les expériences montrent que cette méthode est à la fois scientifiquement rigoureuse et tournée vers l'avenir, non seulement en vérifiant l'existence de traces de vie dans les roches archéennes, mais aussi en fournissant une nouvelle méthode pour explorer d'autres traces de vie inconnues.

Adresse du document :
https://www.pnas.org/doi/10.1073/pnas.2514534122
Suivez notre compte WeChat officiel et répondez « chromatographie en phase gazeuse par pyrolyse » en arrière-plan pour obtenir le PDF complet.
Ensemble de données : 406 échantillons, couvrant une large gamme, fournissant une comparaison complète pour le modèle.
L'équipe de recherche a analysé un total de 406 échantillons naturels et synthétiques contenant diverses molécules organiques, provenant de sources anciennes et modernes, biologiques et abiotiques, et datant d'environ 3,8 milliards d'années (Archéen) à 10 millions d'années (Néogène). Parmi ces échantillons figuraient des roches sédimentaires (141 fragments), des fossiles (65 échantillons), des organismes modernes (123), des météorites (42, dont 39 chondrites carbonées) et des molécules organiques synthétisées en laboratoire (35 groupes), constituant ainsi une base de données riche et diversifiée pour l'analyse par apprentissage automatique.
Parmi ces 406 échantillons, 272 ont été clairement divisés en 9 catégories en fonction des relations phylogénétiques et des caractéristiques physiologiques, et ont été utilisés pour l'entraînement (75%) et le test (25%) de l'apprentissage automatique supervisé, comme le montre la figure ci-dessous :

* Animaux modernes :Les caractéristiques moléculaires organiques d'organismes hétérotrophes non photosynthétiques modernes ont été déterminées à partir de divers invertébrés et vertébrés récemment décédés. L'échantillon comprenait 21 individus.
* Plantes modernes (tissus non photosynthétiques) :Cette étude portait sur des tissus non photosynthétiques et des sécrétions provenant des racines, des graines, des fleurs, des fruits et de la sève des plantes, reflétant les différences moléculaires entre les différents tissus fonctionnels des plantes. L'échantillon était composé de 40 individus.
* Plantes modernes (tissus photosynthétiques) :L'étude s'est principalement concentrée sur les feuilles et autres tissus photosynthétiques, servant de référence moderne pour les caractéristiques des biomolécules photosynthétiques. L'échantillon comprenait 36 individus.
* Roches sédimentaires contenant des cyanobactéries/algues fossilisées photosynthétiques :Les résidus organiques, enrichis par dissolution acide à l'acide chlorhydrique (HCl) et à l'acide fluorhydrique (HF) dans les schistes bitumineux ou les silex, présentent des preuves morphologiques fiables de la présence de cyanobactéries ou de fossiles d'algues, constituant ainsi un enregistrement moléculaire d'anciens micro-organismes photosynthétiques. L'échantillon comprenait 24 spécimens.
* Bois pétrifié, charbon et schiste bitumineux :Les échantillons proviennent principalement de l'éon Phanérozoïque (il y a moins de 541 millions d'années), mais comprennent également des sédiments complexes riches en hydrocarbures du Protérozoïque, tels que la shungite et l'anthraxolite, qui présentent des caractéristiques de préservation moléculaire d'anciennes plantes supérieures et d'hydrocarbures. L'étude porte sur un total de 49 échantillons.
* Fossiles d'animaux :Tous les échantillons proviennent de l'éon Phanérozoïque et comprennent des restes carbonisés de fossiles de poissons et de trilobites, ainsi que des protéines de liaison aux coquilles extraites de coquilles de gastéropodes du Miocène, représentant des restes moléculaires organiques d'animaux anciens. Il y a neuf échantillons au total.
* Champignons modernes :Elle comprend diverses espèces de champignons et de levures lignivores, comblant ainsi des lacunes dans les données moléculaires des groupes d'eucaryotes non végétaux et non animaux. L'échantillon est composé de 16 organismes.
* Météorite :Les échantillons étaient principalement des chondrites carbonées (39 au total), ayant subi une dissolution chimique et un enrichissement en composés moléculaires organiques, servant ainsi de référence pour les sources organiques non biologiques. Au total, 42 échantillons ont été prélevés.
* Échantillons synthétisés en laboratoire :L'étude a utilisé des assemblages de molécules organiques obtenus par des procédés de synthèse en laboratoire, tels que la réaction de Maillard et la réaction de Formose, afin de simuler les caractéristiques moléculaires de substances organiques d'origine abiotique. L'échantillon était composé de 35 molécules.
en plus,L'équipe de recherche a également mis en place deux échantillons de classes auxiliaires supplémentaires pour des modèles d'apprentissage automatique spécifiques.Pour distinguer les organismes photosynthétiques des organismes non photosynthétiques, trois échantillons ont été utilisés. Deux échantillons de cyanobactéries modernes ont servi à compléter les données sur les procaryotes photosynthétiques. Un échantillon de bactérie halophile moderne (Halobacter) a servi à compléter les données sur les archées non photosynthétiques.
Enfin, les 131 échantillons restants étaient principalement des résidus enrichis en composés solubles dans l'acide, provenant de roches sédimentaires archéennes ou protérozoïques riches en matière organique. L'origine et les caractéristiques physiologiques des molécules organiques présentes dans ces échantillons sont inconnues ou sujettes à controverse ; toutefois, cela offre un nouveau terrain d'expérimentation pour la classification, permettant de vérifier l'application de l'apprentissage automatique dans cette expérience.
Méthodes et modèles de recherche : Intégration approfondie de py-GC-MS et de l’apprentissage automatique
Cette expérience peut être résumée en quatre étapes principales :
* La première étape a consisté à collecter 406 échantillons différents contenant du carbone provenant de diverses sources modernes et anciennes, biologiques et abiotiques ;
* La deuxième étape consiste à extraire les macromolécules carbonées des météorites et des roches sédimentaires anciennes ;
* La troisième étape consiste à analyser chaque échantillon à l'aide d'une chromatographie en phase gazeuse par pyrolyse couplée à une spectrométrie de masse à ionisation par impact électronique ;
* Étape 4 : Utilisez les données du sous-ensemble d'analyse de l'échantillon expérimental (méthode d'apprentissage automatique) pour entraîner un modèle de forêt aléatoire supervisé.
L'aspect le plus important de cette méthode est « l'intégration technique » de la technologie d'analyse py-GC-MS avec les méthodes d'apprentissage automatique.
Premièrement, il y a la technique analytique.Dans cette expérience, l'équipe de recherche a utilisé une sonde thermique CDS 6150 couplée à un chromatographe en phase gazeuse Agilent série 8860 et à un spectromètre de masse quadripolaire Agilent 5999. La séparation chromatographique a été réalisée sur une colonne Agilent 30 M 5% phényl PDMS. Les produits de pyrolyse ont été immédiatement entraînés sur la colonne chromatographique par un flux d'hélium en vue de leur analyse. Le protocole expérimental est décrit ci-après.
* Pyrolyse :Les chercheurs ont chargé des échantillons (10-100 μg) dans des tubes de quartz préchauffés (brûlés dans l'air à 550 °C pendant 3 h), puis les ont insérés dans une bobine de sonde thermique pour la pyrolyse éclair, les chauffant à 610 °C à une vitesse de 500 °C/s et les maintenant pendant 10 s.
* Chromatographie :La température initiale était de 50 °C, maintenue pendant 1 minute, puis augmentée à 300 °C à raison de 5 °C/min, et maintenue pendant 15 minutes. De l’hélium ultra-pur (grade UHP 5.5) a été utilisé comme gaz vecteur.
* Spectrométrie de masse :Il fonctionne en mode d'ionisation électronique (EI) avec une énergie d'ionisation de 70 eV à 250 ℃, avec une plage de balayage de m/z 45-700, une vitesse de balayage de 0,80 s/décade et un délai inter-balayage de 0,20 s.
Afin d'éviter les interférences dues aux composés volatils de faible masse moléculaire (tels que le CO₂ et l'H₂O), les données de spectrométrie de masse n'ont pas été acquises pendant les deux premières minutes de l'expérience. De plus, l'expérience a nécessité l'exclusion des signaux provenant des régions d'élution des contaminants courants présents dans le chromatogramme (tels que l'acide palmitique et l'acide stéarique). Chaque échantillon a été converti en une matrice bidimensionnelle (3 240 intervalles de temps d'élution × 150 valeurs m/z), et l'intensité du signal de 489 240 éléments a été enregistrée en fonction de la masse et du temps de rétention. Après standardisation et lissage, 8 149 caractéristiques pertinentes ont finalement été conservées.
Deuxièmement, une sélection de modèle a été effectuée. Cette expérience a utilisé la méthode des forêts aléatoires.Il s'agit d'une méthode de classification d'ensemble offrant une grande précision, un faible coût de calcul et une bonne interprétabilité. Elle réduit le risque de surapprentissage grâce à la construction de plusieurs arbres de décision décorrélés. Le modèle adopte l'approche de forêt aléatoire décrite par Leo Breiman dans son ouvrage « Random Forests ».
Les chercheurs ont utilisé deux stratégies de validation sur le modèle d'apprentissage automatique entraîné. Premièrement, un échantillonnage aléatoire stratifié a été appliqué avec un ensemble d'entraînement de 751 échantillons TP3T et un ensemble de test de 251 échantillons TP3T afin de garantir une proportion homogène de chaque classe d'échantillons dans les deux groupes. Ensuite, la capacité de généralisation du modèle a été évaluée par une validation croisée à 10 plis répétée, et la précision moyenne a été calculée afin de réduire l'erreur aléatoire.
L'expérience a testé quatre modèles pour distinguer les sources biogéniques modernes (plantes et animaux) et les sources abiotiques (météorites + échantillons synthétiques), les sources biogéniques anciennes (roches sédimentaires d'origine biogénique connue) et les sources abiotiques, les sources biogéniques anciennes (à l'exclusion du bois pétrifié et du charbon) et les sources abiotiques, et les échantillons photosynthétiques et non photosynthétiques.
Résultats expérimentaux : Une approche multi-modèles et multidimensionnelle vérifie la faisabilité de l’intégration technologique.
Dans les tests initiaux, les chercheurs ont utilisé un modèle de forêt aléatoire pour classer 36 combinaisons par paires d'échantillons avec 9 attributs connus, en supposant une taille d'échantillon relativement équilibrée.Sur les 36 tests, 25 ont eu une précision de ≥ 90% sur les ensembles d'entraînement et de test, dont 19 ont eu une précision de ≥ 95%.Tous les résultats sont présentés dans le tableau ci-dessous :

Pour mieux illustrer la méthode, l'article présente plusieurs études de cas démontrant les différences d'efficacité et d'inefficacité selon les situations. Par exemple, dans les groupes 3 et 8, à savoir les plantes modernes (tissus photosynthétiques) et les météorites,Cette méthode a permis de distinguer les plantes des météorites avec une précision de 100%.Tous les échantillons présentaient des probabilités d'appartenance à une classe supérieures à 0,6 ou inférieures à 0,4, indiquant des différences significatives dans leurs caractéristiques moléculaires. Voir la figure A ci-dessous :

De plus, l'identification des échantillons biogéniques et abiotiques est un objectif clé de la recherche en paléontologie et en astrobiologie. À cette fin, l'équipe de recherche a construit et comparé trois modèles de forêts aléatoires différents afin de vérifier leur capacité à distinguer les sources biogéniques et abiotiques pour différentes combinaisons d'échantillons.
Plus précisément, dans le modèle # 1, l'équipe de recherche a testé la capacité à distinguer les plantes et les animaux modernes des sources abiotiques (météorites et échantillons synthétiques) dans les groupes 1, 2, 3 et les groupes 8, 9, avec des nombres d'échantillons de 97 et 77, respectivement.Le taux de précision global a atteint 981 TP3T.La valeur AUC est de 0,977 sur l'ensemble d'entraînement et de 1,000 sur l'ensemble de test ; la précision de la validation croisée à 10 plis est de 98,3%.
Le modèle # 2 a principalement servi à valider sa capacité à distinguer les échantillons biologiques anciens des échantillons abiotiques riches en matière organique. Les échantillons témoins provenaient des groupes 4 et 5, et des groupes 8 et 9, comprenant respectivement 87 et 77 échantillons.Sur les 87 échantillons organiques anciens biogéniques, 83 ont été correctement classés, atteignant un taux de précision de 95,1 TP3T.De plus, 70 de ces échantillons (80%) présentaient une forte confiance dans les probabilités de classification d'origine biologique, >0,6. 69 des échantillons non biologiques ont été correctement classés, atteignant une précision de 90% ; la valeur AUC était de 0,924 sur l'ensemble d'entraînement et de 0,926 sur l'ensemble de test ; la précision de validation croisée à 10 plis était de 92,7%.
Lorsque le modèle # 2 a été appliqué à 109 roches sédimentaires anciennes d'origine biogénique inconnue, 68 échantillons (61%) ont été trouvés avec une probabilité de classification d'origine biogénique > 0,50 et 32 échantillons ont été trouvés avec une probabilité de classification d'origine biogénique > 0,60.
De plus, les résultats ont révélé une diminution de la proportion d'échantillons biogéniques en fonction de l'âge géologique. Sur les 82 échantillons du Phanérozoïque, 76 (93%) étaient biogéniques, 43 (73%) provenaient du Protérozoïque et seulement 21 (47%) de l'Archéen (45 échantillons). Ceci indique une diminution significative du pourcentage d'échantillons biogéniques avec l'âge, reflétant possiblement une dégradation biomoléculaire ou un apport organique abiotique. (Voir figure ci-dessous.)

Le modèle # 3 est principalement utilisé pour vérifier la capacité à distinguer les sources biogéniques et abiotiques anciennes. Les échantillons biogéniques proviennent de 89 échantillons de schiste et de silex, dont le quatrième groupe, tandis que les échantillons abiotiques restent les 77 échantillons des huitième et neuvième groupes.Tous les échantillons biologiques ont été correctement classés. 80% échantillons ont une probabilité de confiance élevée de classification de cause biologique (>0,60), et la précision des échantillons de cause non biologique est de 77% ; la valeur AUC est de 0,873 pour l'ensemble d'entraînement et de 0,863 pour l'ensemble de test ; la précision de la validation croisée à 10 plis est de 91,6%.
De plus, en combinant le modèle # 2 et le modèle # 3,Des chercheurs ont identifié 11 échantillons anciens comme étant d'origine biologique, le plus ancien étant le silex de Josefsdal provenant de la ceinture de roches vertes de Barberton en Afrique du Sud, datant de 3,33 milliards d'années.Comme le montre le tableau suivant :

L'intégration technologique est devenue un moyen important d'explorer les origines de la vie.
Ces dernières années, des équipes de recherche internationales ont mené de nombreuses explorations novatrices pour relever des défis fondamentaux tels que l'identification des premières traces de vie et la traçabilité de la matière organique extraterrestre. Ces études portent également sur l'analyse de mélanges moléculaires complexes, grâce à des modèles algorithmiques permettant d'explorer des caractéristiques biologiques difficiles à appréhender par les méthodes analytiques traditionnelles. Elles jettent ainsi les bases de la faisabilité de voies d'intégration technologique et de la compréhension des origines de la vie sur Terre.
Par exemple, les résultats du Laboratoire de la Terre et des planètes de la Carnegie Institution for Science, en collaboration avec d'autres institutions, ont également utilisé les méthodes mentionnées ci-dessus. Ces méthodes permettent de déterminer l'origine biologique de la matière organique dans des échantillons planétaires, ainsi que d'identifier des traces de vie primitive sur Terre.Cette méthode combine des mesures de pyrolyse, de chromatographie en phase gazeuse et de spectrométrie de masse de matériaux carbonés terrestres et extraterrestres avec des méthodes de classification par apprentissage automatique.Il a atteint une précision de 90% dans la distinction entre les échantillons d'origine non biologique et les échantillons biologiques (y compris les échantillons biologiques hautement dégradés), et reflète fidèlement la nécessité de la fonction de sélection biomoléculaire de Darwin.
Titre de l'article : Une biosignature moléculaire robuste et agnostique basée sur l'apprentissage automatique
Adresse du document :https://www.pnas.org/doi/10.1073/pnas.2307149120
L'intégration de la py-GC-MS et de l'apprentissage automatique permet non seulement de dépasser les limites des méthodes traditionnelles d'exploration des origines de la vie, mais aussi d'établir un nouveau paradigme à la croisée de la paléontologie et de l'intelligence artificielle. Cependant, comme l'ont montré les expériences susmentionnées et d'autres études, cette approche technologique intégrée présente encore des marges d'optimisation, ouvrant la voie à des recherches plus approfondies. On pense qu'avec les progrès technologiques continus, l'humanité pourra à l'avenir acquérir une compréhension plus intuitive et plus profonde des origines de la vie, et même rechercher des traces de vie extraterrestre.