Skip to content

BWA #
Find similar titles

Structured data

Category
Software

BWA(Burrows-Wheeler Aligner) #

Introduction #

BWA는 참조 유전체에 이와 근연 관계의 sequence read mapping을 위한 소프트웨어다. 이는 이름에서 알 수 있듯 Burrows와 Wheeler가 개발한 Burrows-Wheeler Transform (BWT)를 기반으로 Heng Li가 개발했다.

BWA의 3가지 알고리즘 #

BWA는 3가지 알고리즘을 갖고 있는데 각각 BWA-backtrack, BWA-SW 그리고 BWA-MEM 이다. BWA-backtrack은 100bp 정도의 길이dml Illumina short reads를 위한 알고리즘이고, 나머지 두 알고리즘은 long reads (~1Mbp)를 위한 알고리즘이다. SW와 MEM은 같은 특징을 갖지만, MEM이 더 최근(2012~2013)에 개발되었다. 최근에 개발된 만큼 더 빠르고 정확하다. 뿐만이 아니라 70-100bp Illumina reads 에 대해서도 BWA-backtrack보다 좋은 퍼포먼스를 보인다.

알고리즘의 특징 #

위에서 언급한 대로, BWA-MEM은 BWA-backtrack과 BWA-SW를 아우를 수 있는 aligner다. 하지만 각각의 aligner는 장단점을 갖고 있다. Illumina, 454, Ion Torrent 혹은 Sanger의 sequencing reads 뿐만 아니라 assembly contigs와 BAC sequences 모두 BWA-MEM에서 잘 작동한다. 하지만 short sequences에 대해서는 BWA-backtrack이 더 나은 퍼포먼스를 보이고, BWA-SW는 gap이 빈번하게 발생하는 alignment에서 더 섬세한 alignment를 수행한다.

Multi-hit reads 의 처리 #

Multi-part alignments는 gene fusion 이나 reference misassembly에 의해서 발생될 수 있다. 이러한 multi-hits reads는 SAM에서 표현이 되지 않는다. 이러한 문제를 해결하기 위해 BWA-MEM에서 -M 옵션을 함께 사용하면 BWA-MEM은 picard를 공용해 shorter split hits를 마킹한다.

Chimeric reads 찾기 #

Aligner를 사용하려는 유저들에게 가장 많은 고민은 chimeric reads를 찾는 것 관한 문제이다. 이는 SEQanswers, BioStar 등에서 빈번히 확인된다. 이러한 문제는 BWA-SW와 BWA-MEM에서 2개 이상의 read/contig alignment report를 찾을 수 있다면 해결할 수 있다.

진화한 BWA #

2013년에 개발이 완료된 BWA-MEM은 기존의 한계였던 total genome length가 4GB 보다 큰 경우에 작동하지 않았던 문제를 해결했고, 하나의 chromosome length가 2GB를 넘지 말아야 했던 문제점도 해결했다. 0.6.x 버전부터 이 문제를 해결했다. 이 버전 이후 부터는 2008년~2009년에 개발된 BWA-backtrack과 BWA-SW에서도 해결되었다.

Reference #

homepage

manual

Incoming Links #

Related People #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20210630_7_v33