Command Palette
Search for a command to run...
Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al

초록
다음 세대 DNA 시퀀싱(NGS) 프로젝트, 예를 들어 ‘1000개 유전체 프로젝트’는 이미 개인 간 유전적 변이에 대한 이해를 혁신적으로 변화시키고 있다. 그러나 NGS에서 생성되는 막대한 데이터셋—1000개 유전체 프로젝트의 초기 실험만 해도 거의 5테라바이트에 달한다—는, 심지어 계산 능력이 뛰어난 전문가들조차도 기능이 풍부하고 효율적이며 견고한 분석 도구를 개발하기 어렵게 만든다. 실제로 이러한 기계에서 생성된 데이터에 접근하고 조작하는 복잡성으로 인해, 많은 전문가들은 과학적 질문에 답하는 범위와 용이성에 한계를 느끼고 있다. 본 연구에서는, MapReduce의 함수형 프로그래밍 철학을 기반으로 다음 세대 DNA 시퀀서를 위한 효율적이고 견고한 분석 도구 개발을 용이하게 하기 위해 설계된 ‘게놈 분석 툴킷(Genome Analysis Toolkit, GATK)’을 소개한다. GATK는 분석 도구의 대부분의 요구를 충족하는 소규모이지만 풍부한 데이터 접근 패턴을 제공한다. 특정 분석 계산 로직을 일반적인 데이터 관리 인프라와 분리함으로써, GATK 프레임워크를 정확성, 안정성, CPU 및 메모리 효율성 측면에서 최적화할 수 있으며, 분산 및 공유 메모리 병렬 처리를 가능하게 한다. 본 연구에서는 커버리지 계산기나 단일 염기 다형성(SNP) 호출과 같은 견고하고 확장성에 유연한 도구의 구현 및 적용 사례를 통해 GATK의 능력을 강조한다. 결론적으로, GATK 프로그래밍 프레임워크는 개발자 및 분석가가 빠르고 쉽게 효율적이고 견고한 NGS 도구를 개발할 수 있도록 지원하며, 이러한 도구들은 이미 ‘1000개 유전체 프로젝트’와 ‘암 게놈 아틀라스(Cancer Genome Atlas)’와 같은 대규모 시퀀싱 프로젝트에 이미 통합되어 활용되고 있다.