RepeatMasker
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
개요 #
진핵생물은 유전체 서열 중 많은 반복 서열을 가지고 있다. 반복 서열은 크게 고반복 서열 (satelite DNA, minisatelite DNA, microsatellite DNA), 중간반복 서열 (telomere(TTAGGGG), rRNA, tRNA, transposon), 약간반복 서열 (2~10번 정도의 반복 수)로 구분이 되며, tandemly repetitive DNA (반복 서열이 간격 없이 연속적으로 배치)와 interspersed repetitive DNA (산재분포 : 반복 서열이 간격을 두고 존재)로 분류할 수 있다.
이렇게 Transposon elements를 포함한 simple repeat region과 low complexity 영역이 전체 유전체의 70~80% 가량 해당하는데 이러한 영역을 선별적으로 masking (소문자 or X)하여 반복서열 영역에서의 유전자 예측은 예외로 처리한다.
RepeatMasker란 #
RepeatMasker는 low-complexity DNA sequences와 interspersed repeats를 포함한 repetitive elements를 identify, classify 및 mask 하는데 있어 널리 사용되는 소프트웨어 툴이다. Repeat library는 Repbase Update (Hunam, Rattus, Drosophila melanogaster, Arabidopsis thaliana, Caenorhabditis elegans, Danio rerio 등)와 같은 잘 알려진 repeats의 library를 input genome sequence와 서열 정렬을 함으로써 repetitive sequence를 찾는다. 이 DNA sequence와 연관되는 데이터 값들을 소문자로 변환하거나 Ns, Xs로 변환하는데 소문자로 변환하는 것은 Soft Masking, x로 바꾸는 것은 Hard Masking이라고 한다. 검색엔진은 wublast, abblast, ncbi, hmmer, decypher가 있다.
사용법 #
Web version과 Command-line version 2가지가 있다. 만약 RepeatMasker Web Server를 이용하고 싶다면, RepeatMasker Web Server 이 곳에 들어가서 GUI 모드로 쉽게 확인할 수 있다. 단, FASTA sequence file을 올릴 수 있는 것이 최대 100-kb의 제한이 있으므로 이보다 큰 서열을 이용할 때에는 local에서 command-line으로만 사용할 수 있다는 점을 명심하자. Command-line RepeatMasker는 query sequences의 제한이 없으며, 더 빠른 processing을 위해 WU-BLAST와 함께 RepeatMasker를 수행할 수 있다.
RepeatMasker [-options] <seqfiles(s) in fasta format>
$ /path/to/RepeatMasker –species elegans current.dna.fa
or
$ /path/to/RepeatMasker –w –species elegans current.dna.fa (using wublast)
또한, RepeatModeler의 output을 이용하여 RepeatMasker를 수행할 수 있다.
$ /path/to/RepeatMasker –lib /path/to/consensi.fa.classified current.dna.fa –pa thread_number –x
다음은 masking과 관련된 option이다.
-a shows the alignments in a .align output file;
-small returns complete .masked sequence in lower case
-xsmall returns repetitive regions in lowercase (rest capitals) rather than
masked
-x returns repetitive regions masked with Xs rather than Ns
-gff creates an additional General Feature Finding format outpu
Reference #
- Repbase Update
- RepeatMasker homapage
- Using RepeatMasker to Identify Repetitive Elements in Genomic Sequences
- Using and Understanding RepeatMasker - Chapter 2
- Tandem_repeat