HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Beispieldatensatz Für Die Genomanalyse Von Gatk_benchmark

Use this Dataset

Date

vor 2 Monaten

Organization

Broad Institute
Massachusetts General Hospital

Paper URL

2091297

License

Other

GATK (Genome Analysis Toolkit) ist ein Open-Source-Bioinformatik-Toolkit, das vom Broad Institute, einem Joint Venture zwischen MIT und Harvard University, entwickelt wurde.
Das Ziel dieses Projekts ist die Bereitstellung eines standardisierten Analyseprozesses für Hochdurchsatzsequenzierungsdaten (NGS), der hauptsächlich für folgende Zwecke verwendet wird:

  • Qualitätskontrolle (QC) von DNA/RNA-Sequenzierungsdaten;
  • Sequenzausrichtung und Neukalibrierung;
  • Variantenaufruf, Identifizierung von SNPs, InDels und anderen Varianten;
  • Gemeinsame Genotypisierung auf Populationsebene.

GATK ist eines der am häufigsten verwendeten Analyse-Frameworks im Bereich der Genomik und wird häufig bei der Sequenzierung des gesamten menschlichen Genoms, der Krebsgenomforschung und der Präzisionsmedizin eingesetzt.

Die relevanten Papierergebnisse sindDas Genome Analysis Toolkit: Ein MapReduce-Framework zur Analyse von DNA-Sequenzierungsdaten der nächsten Generation“, veröffentlicht 2010 vom Broad Institute der Harvard University und des MIT in Zusammenarbeit mit dem Center for Human Genetics am Massachusetts General Hospital.


Einführung in den Beispieldatensatz

Die Analyse-Pipeline von GATK verwendet unausgerichtete BAM-Dateien (uBAM) als einheitlichen Ausgangspunkt, während Sequenzer typischerweise FASTQ-Dateien oder vorab ausgerichtete BAM-Dateien ausgeben. Um eine konsistente und reproduzierbare Analyse zu gewährleisten, müssen Daten aus verschiedenen Quellen in das uBAM-Format konvertiert werden.

Dieses Projekt liefert zwei typische Beispiele und zeigt:

  • Konvertierungspipeline von FASTQ zu nicht ausgerichtetem BAM (FastqToSam);
  • Wiederherstellungsprozess von ausgerichtetem BAM zu nicht ausgerichtetem BAM (RevertSam).

tutorial6484FastqToSam.tar.gz

Dieser Datensatz enthält Dateien im FASTQ-Format, dem Rohdatenformat des Sequenzers. Sie erfassen die Basensequenz und den Sequenzqualitätswert jedes DNA-Reads. Sie dienen zur Demonstration der Verwendung von Picards FastqToSam-Tool zur Konvertierung der FASTQ-Dateien der Paired-End-Sequenzierung in unaligned BAM und zur Generierung von .bam Eine Datei, die Rohsequenz, Qualitätswerte und Lesegruppeninformationen enthält, jedoch keine Informationen zur Ausrichtungsposition.

  • Beispiel für einen Konvertierungsbefehl:
  bash
    java -Xmx8G -jar picard.jar FastqToSam \
    FASTQ=6484_snippet_1.fastq \    # 双端测序中的第一个读段文件  
    FASTQ2=6484_snippet_2.fastq \   # 双端测序中的第二个读段文件  
    OUTPUT=6484_snippet_fastqtosam.bam \
    READ_GROUP_NAME=H0164.2 \       # 必需;读组名称(默认值为 A,此处已修改)
    SAMPLE_NAME=NA12878 \           # 必需;样本名称  
    LIBRARY_NAME=Solexa-272222 \    # 必需;文库名称  
    PLATFORM_UNIT=H0164ALXX140820.2 \ 
    PLATFORM=illumina \             # 推荐;测序平台类型(如 Illumina)
    SEQUENCING_CENTER=BI \ 
    RUN_DATE=2014-08-20T00:00:00-0400   # 测序运行日期与时间  

tutorial6484RevertSam.tar.gz

Dieser Datensatz liegt im BAM-Format vor, einer Binärdatei, die durch Normalisierung oder Ausrichtung von Sequenzen in FASTQ-Dateien generiert wird. Er speichert Sequenzen und ihre Positionen im Genom effizienter. Dieser Beispieldatensatz demonstriert, wie Sie mit Picards RevertSam-Tool ausgerichtete BAM-Dateien für eine Neuausrichtung oder Neuanalyse in einen nicht ausgerichteten Zustand zurückversetzen.

  • Beispiel für einen Konvertierungsbefehl:
  bash
    java -Xmx8G -jar /path/picard.jar RevertSam \
    I=6484_snippet.bam \
    O=6484_snippet_revertsam.bam \
    SANITIZE=true \ 
    MAX_DISCARD_FRACTION=0.005 \      # 仅用于信息提示,不影响处理过程  
    ATTRIBUTE_TO_CLEAR=XT \
    ATTRIBUTE_TO_CLEAR=XN \
    ATTRIBUTE_TO_CLEAR=AS \           # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除  
    ATTRIBUTE_TO_CLEAR=OC \
    ATTRIBUTE_TO_CLEAR=OP \
    SORT_ORDER=queryname \            # 默认设置;按查询名排序  
    RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值  
    REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息  
    REMOVE_ALIGNMENT_INFORMATION=true   # 默认设置;移除比对信息  

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp