HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Exemple De Jeu De Données d'analyse Du Génome Gatk_benchmark

Use this Dataset

Date

il y a 2 mois

Organization

Institut Broad
Hôpital général du Massachusetts

Paper URL

2091297

License

Other

GATK (Genome Analysis Toolkit) est une boîte à outils bioinformatique open source développée par le Broad Institute, une coentreprise entre le MIT et l'Université de Harvard.
L'objectif de ce projet est de fournir un processus d'analyse standardisé pour les données de séquençage à haut débit (NGS), principalement utilisé pour :

  • Contrôle qualité (CQ) des données de séquençage ADN/ARN ;
  • Alignement et recalibrage des séquences ;
  • Appel de variantes, identification des SNP, InDels et autres variantes ;
  • Génotypage conjoint à l'échelle de la population.

GATK est l’un des cadres d’analyse les plus couramment utilisés dans le domaine de la génomique et est largement utilisé dans le séquençage du génome entier humain, la recherche sur le génome du cancer et la médecine de précision.

Les résultats pertinents de l'article sontLa boîte à outils d'analyse du génome : un cadre MapReduce pour l'analyse des données de séquençage d'ADN de nouvelle génération", publié en 2010 par le Broad Institute de l'Université Harvard et du MIT, en collaboration avec le Center for Human Genetics du Massachusetts General Hospital.


Introduction à l'échantillon de données

Le pipeline d'analyse de GATK utilise des fichiers BAM non alignés (uBAM) comme point de départ unifié, tandis que les séquenceurs génèrent généralement des fichiers FASTQ ou des fichiers BAM préalignés. Pour garantir une analyse cohérente et reproductible, les données provenant de différentes sources doivent être converties au format uBAM.

Ce projet fournit deux exemples typiques, montrant :

  • Pipeline de conversion de FASTQ vers BAM non aligné (FastqToSam) ;
  • Processus de restauration d'un BAM aligné vers un BAM non aligné (RevertSam).

tutoriel6484FastqToSam.tar.gz

Cet ensemble de données contient des fichiers au format FASTQ, qui correspondent aux données brutes générées par le séquenceur. Ils enregistrent la séquence de bases et la qualité de séquençage de chaque lecture d'ADN. Ils illustrent l'utilisation de l'outil FastqToSam de Picard pour convertir les fichiers FASTQ de séquençage apparié en BAM non aligné et générer des données. .bam Un fichier contenant la séquence brute, les valeurs de qualité et les informations sur le groupe de lecture, mais sans aucune information de position d'alignement.

  • Exemple de commande de conversion :
  bash
    java -Xmx8G -jar picard.jar FastqToSam \
    FASTQ=6484_snippet_1.fastq \    # 双端测序中的第一个读段文件  
    FASTQ2=6484_snippet_2.fastq \   # 双端测序中的第二个读段文件  
    OUTPUT=6484_snippet_fastqtosam.bam \
    READ_GROUP_NAME=H0164.2 \       # 必需;读组名称(默认值为 A,此处已修改)
    SAMPLE_NAME=NA12878 \           # 必需;样本名称  
    LIBRARY_NAME=Solexa-272222 \    # 必需;文库名称  
    PLATFORM_UNIT=H0164ALXX140820.2 \ 
    PLATFORM=illumina \             # 推荐;测序平台类型(如 Illumina)
    SEQUENCING_CENTER=BI \ 
    RUN_DATE=2014-08-20T00:00:00-0400   # 测序运行日期与时间  

tutoriel6484RevertSam.tar.gz

Cet ensemble de données est au format BAM, un fichier binaire généré par la normalisation ou l'alignement de séquences dans des fichiers FASTQ. Il stocke les séquences et leur localisation dans le génome de manière plus efficace. Cet exemple de jeu de données montre comment utiliser l'outil RevertSam de Picard pour restaurer des fichiers BAM alignés à un état non aligné en vue d'un réalignement ou d'une nouvelle analyse.

  • Exemple de commande de conversion :
  bash
    java -Xmx8G -jar /path/picard.jar RevertSam \
    I=6484_snippet.bam \
    O=6484_snippet_revertsam.bam \
    SANITIZE=true \ 
    MAX_DISCARD_FRACTION=0.005 \      # 仅用于信息提示,不影响处理过程  
    ATTRIBUTE_TO_CLEAR=XT \
    ATTRIBUTE_TO_CLEAR=XN \
    ATTRIBUTE_TO_CLEAR=AS \           # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除  
    ATTRIBUTE_TO_CLEAR=OC \
    ATTRIBUTE_TO_CLEAR=OP \
    SORT_ORDER=queryname \            # 默认设置;按查询名排序  
    RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值  
    REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息  
    REMOVE_ALIGNMENT_INFORMATION=true   # 默认设置;移除比对信息  

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp