Skip to content

RepeatMasker #

Find similar titles

8회 업데이트 됨.

Edit

Structured data

Category
Software

개요 #

진핵생물유전체 서열 중 많은 반복 서열을 가지고 있다. 반복 서열은 크게 고반복 서열 (satelite DNA, minisatelite DNA, microsatellite DNA), 중간반복 서열 (telomere(TTAGGGG), rRNA, tRNA, transposon), 약간반복 서열 (2~10번 정도의 반복 수)로 구분이 되며, tandemly repetitive DNA (반복 서열이 간격 없이 연속적으로 배치)와 interspersed repetitive DNA (산재분포 : 반복 서열이 간격을 두고 존재)로 분류할 수 있다.

Image

이렇게 Transposon elements를 포함한 simple repeat regionlow complexity 영역이 전체 유전체의 70~80% 가량 해당하는데 이러한 영역을 선별적으로 masking (소문자 or X)하여 반복서열 영역에서의 유전자 예측은 예외로 처리한다.

RepeatMasker란 #

RepeatMasker는 low-complexity DNA sequences와 interspersed repeats를 포함한 repetitive elements를 identify, classify 및 mask 하는데 있어 널리 사용되는 소프트웨어 툴이다. Repeat library는 Repbase Update (Hunam, Rattus, Drosophila melanogaster, Arabidopsis thaliana, Caenorhabditis elegans, Danio rerio 등)와 같은 잘 알려진 repeats의 library를 input genome sequence와 서열 정렬을 함으로써 repetitive sequence를 찾는다. 이 DNA sequence와 연관되는 데이터 값들을 소문자로 변환하거나 Ns, Xs로 변환하는데 소문자로 변환하는 것은 Soft Masking, x로 바꾸는 것은 Hard Masking이라고 한다. 검색엔진은 wublast, abblast, ncbi, hmmer, decypher가 있다.

사용법 #

Web version과 Command-line version 2가지가 있다. 만약 RepeatMasker Web Server를 이용하고 싶다면, RepeatMasker Web Server 이 곳에 들어가서 GUI 모드로 쉽게 확인할 수 있다. 단, FASTA sequence file을 올릴 수 있는 것이 최대 100-kb의 제한이 있으므로 이보다 큰 서열을 이용할 때에는 local에서 command-line으로만 사용할 수 있다는 점을 명심하자. Command-line RepeatMasker는 query sequences의 제한이 없으며, 더 빠른 processing을 위해 WU-BLAST와 함께 RepeatMasker를 수행할 수 있다.

RepeatMasker [-options] <seqfiles(s) in fasta format>

$ /path/to/RepeatMasker –species elegans current.dna.fa 
or
$ /path/to/RepeatMasker –w –species elegans current.dna.fa (using wublast)

또한, RepeatModeler의 output을 이용하여 RepeatMasker를 수행할 수 있다.

$ /path/to/RepeatMasker –lib /path/to/consensi.fa.classified current.dna.fa –pa thread_number –x

다음은 masking과 관련된 option이다.

-a      shows the alignments in a .align output file; 
-small  returns complete .masked sequence in lower case
-xsmall returns repetitive regions in lowercase (rest capitals) rather than 
        masked
-x      returns repetitive regions masked with Xs rather than Ns
-gff    creates an additional General Feature Finding format outpu

Reference #

Incoming Links #

Related Bioinformaticses #

0.0.1_20231010_1_v71