PICARD
MarkDuplicates
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
MarkDuplcates #
개요 #
Duplicate는 한 개의 read 혹은 fragment에서 파생된다. sequencing library 제작 과정인 PCR에서 이상적으로 특정 fragment가 증폭되어 non-informative read를 만들어내는 현상이 관찰된다.
Picard는 duplicate에 의한 기술적인 Bias를 조절하기 위하여 다음의 MarkDuplicates 도구를 제공한다.
원리 #
Alignment가 진행된 BAM 또는 SAM 파일에서 read간 5' 위치를 비교한다. flags column의 0X0400를 인지한다.
이후 수집된 duplicate reads에 대해 각 read의 base quality의 합을 비교하여 순위를 매기게 된다.
Process #
- Sorting Bam file
$ samtools sort [Input.bam] [Output.bam] # coordinate or name with -n parameter - Marking duplicates
$ java -jar picard.jar MarkDuplicates I=[Input.bam] O=[Output.bam]
참고: duplicate cluster 정보를 담는 temporary파일의 수가 서버의 최대 파일 생성 수를 넘어서는 경우 오류가 발생하므로 다음의 상황에서는 MAX_FILE_HANDLES=[최대 file 수] parameter를 조정해주면 된다.