Skip to content

PICARD MarkDuplicates #

Find similar titles

14회 업데이트 됨.

Edit
  • 최초 작성자
    Dongsoo
  • 최근 업데이트
    lca

Structured data

Category
Software

MarkDuplcates #

개요 #

Duplicate는 한 개의 read 혹은 fragment에서 파생된다. sequencing library 제작 과정인 PCR에서 이상적으로 특정 fragment가 증폭되어 non-informative read를 만들어내는 현상이 관찰된다. Image
Picard는 duplicate에 의한 기술적인 Bias를 조절하기 위하여 다음의 MarkDuplicates 도구를 제공한다.

원리 #

Alignment가 진행된 BAM 또는 SAM 파일에서 read간 5' 위치를 비교한다. flags column의 0X0400를 인지한다.
Image
이후 수집된 duplicate reads에 대해 각 read의 base quality의 합을 비교하여 순위를 매기게 된다.

Process #

  1. Sorting Bam file
    $ samtools sort [Input.bam] [Output.bam] # coordinate or name with -n parameter
  2. Marking duplicates
    $ java -jar picard.jar MarkDuplicates I=[Input.bam] O=[Output.bam]

    참고: duplicate cluster 정보를 담는 temporary파일의 수가 서버의 최대 파일 생성 수를 넘어서는 경우 오류가 발생하므로 다음의 상황에서는 MAX_FILE_HANDLES=[최대 file 수] parameter를 조정해주면 된다.

참고 #

  1. https://broadinstitute.github.io/picard/command-line-overview.html#MarkDuplicates

Suggested Pages #

0.0.1_20230725_7_v68