Skip to content

Posts GATK #

Find similar titles

25회 업데이트 됨.

Edit
  • 최초 작성자
    mhchoi
  • 최근 업데이트
    shlee

Structured data

Category
Software

Genome Analysis Tool Kit (GATK) 1 #

Genome Analysis Tool Kit (GATK)는? #

Genome Analysis Tool Kit(GATK)는 Broad Institute에서 개발한 것으로 sequencing data(NGS)를 이용하여 genome 내 모든 variant calling이 가능하도록 sub program 들로 구성되어 있다. 예를 들어 만약 사용자가 exomeSeq 데이터를 가지고 rare variant를 확인하기를 원한다면 GATK를 통해서 분석할 수 있다.

특히 GATK는 human 이외에도 모든 종의 genome에 적용할 수 있으며, 다양한 sequencing technologies에서 생성된 data를 사용할 수 있는 이점이 있다.

  • 입력: BAM 파일 등
    • SAM 포맷은 데이터가 크기 때문에, 압축이 적용된 BAM 파일을 사용.
    • 또한, GATK의 인풋으로 사용되는 Mapped file은 서열의 position 별로 sorting 된 파일을 사용해야 함.
      • SAMtools의 sort를 사용하여 position 별로 sorting 하면 됨.
  • 결과: VCF 파일
  • 핵심 아이디어: Map Reduce Technique

  • Interface : GATK는 graphical user interface를 지원하지 않는다. 모든 tool 들은 command-line interface를 통해서 사용할 수 있다.

  • Command structure와 tool arguments : 모든 GATK tool 들은 기본적인 command structure를 사용한다. 대부분의 tool 들은 특정한 기능을 수행하며 사용자가 추가할 수 있는 조건에 대한 argument를 가지고 있다. 각 tool 들에 대한 정보들은 documentation page에서 확인할 수 있다.
    • Tool Documentation 5

GATK 분석 과정 #

GATK Germline variant calling pipeline

Fig1. 기본적인 변이 분석 단계. 출처 : 2

  1. 참조 서열에 매핑
  2. GATK를 실행하기 전, picard MarkDuplicates 3를 이용하여 같은 위치에 정렬된 reads 들은 sequencing 과정 중, Amplification 과정에서 생긴 duplicate이라 판단하여 제거함. 하지만 GBS와 같이 제한효소 부위에 잘려 시퀀싱이 되는 경우는 위와 같은 이유라고 하더라도 반드시 시퀀싱 과정 중에 생긴 에러라고 판단하기 어려우므로, 이 데이터를 사용할 때는 진행하지 않는다. picard Duplicates

    Fig2. picard Duplicates. 출처 : 4

  3. WGS, GBS가 아닌 RNA-seq 데이터를 사용할 때는 추가적으로 GATK SplitNCigarReads 로 전처리 진행 후, 변이 분석을 진행해야 한다.

GATK RNAseq variant calling pipeline

Fig3. RNA-seq 데이터 변이 분석 단계. 출처 : 2

  1. GATK HaplotypeCaller으로 개체별로 변이를 발굴한다. GATK에서 sample 사이의 sequence variation을 찾는 방법으로는 신뢰할 수 있는 variant call set을 생산하는 필수적인 단계를 통하여 분석을 guide하고 사용자의 data set에 적절한 parameter를 선택하는 데 도움을 준다. 그리고 다양한 option 들은 사용자가 분석하고자 하는 대상이 whole genome 또는 exoms 그리고 type, 수 그리고 coverage depth에 따라서 선택할 수 있게 해준다.
    • Variant discovery는 sample 별 sequence variation을 찾는다. 이 variant의 종류는 SNP, Indel, structural variation의 3가지 방법으로 얻을 수 있다.
    • SNP(Single Nucleotide Polymorphisoms) : 단일 염기 다형성. 유전정보의 복사 오류에서 발생. 이에 따라 유전적 차이가 발생한다.
    • Indel (Insertion & Deletion) : 유전적 정보의 추가 혹은 삭제. 이로 인한 유전적 차이
    • Structural variation : 유전 구조적 차이
  2. GATK CombineGVCF, GenotypeGVCF, SelectVariants를 순차적으로 실행 후, vcftoolsPLINK를 이용하여 다양한 GWAS 분석에 활용된다.
    • Genotyping은 유전자형을 결정하는 단계, 사람마다 유전자형이 다른데 이를 통해 각 개체를 구분한다. 위의 variant discovery를 통해 유전자형을 결정할 수 있다.

5-1. GenomicsDBImport Germline 분석하고자 하는 샘플의 개수가 1,000개를 넘어가는 경우 CombineGVCF 보다 GenomicsDBImport의 사용을 권장합니다. GenomicsDBImport 의 경우 DB로 사용할 폴더를 지정한 후 TileDB를 구성하지만, 기능적으로는 CombineGVCF와 같은 기능을 제공합니다.

References #

  • GATK Website 1
  • GATK Best Practices 2
  • picard MarkDuplicates 3
  • picard MarkDuplciates 설명 그림 4
  • GATK Tool Manual 5

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

Other Posts #

0.0.1_20231010_1_v71