RepeatScout
#
Find similar titles
- (rev. 5)
- Myunghee Jung
Structured data
- Category
- Software
Table of Contents
Description #
RepeatScout는 유전체 서열에서 새롭게 Repeat family를 분석하기 위한 툴로써 2005년에 처음 개발된 이후로 2017년 6월 현재 1.0.5 버전에 이르기까지 지속적으로 업데이트되고 있다. De novo 종의 repeat 분석을 위해 가장 많이 쓰이고 있는 RepeatModeler에서도 repeat 탐색을 위해서 이 프로그램을 사용하고 있는 등 널리 사용되고 있다. 개발팀에서 발표한 논문에 따르면 RECON에 비해서 속도가 훨씬 빠르고 새롭게 밝혀진 유전체 서열의 분석에 적합하다는 장점이 있다고 한다. 또 이 프로그램을 이용하여 인간 유전체 서열의 약 2%, mouse 유전체 서열의 약 4%에 해당하는 반복서열을 새롭게 밝혀냈다고 한다.
Install #
Requirement #
설치와 실행을 위해서는 다음과 같은 프로그램의 설치가 선행되어야 한다. 이들 프로그램은 repeat library를 필터링하거나 low complexity나 tandem sequence를 제거하는 데 이용된다.
- Perl 5.5버전 이상
- Tandem Repeat Finder(trf)
- nseg
Configuration #
-
소스 파일 다운로드하기
> wget http://bix.ucsd.edu/repeatscout/RepeatScout-1.0.5.tar.gz
-
압축 해제하기
> tar -xvfz RepeatScout-1.0.5.tar.gz
-
build 하기
> cd RepeatScout-1.0.5 > make
Usage #
-
주어진 genome 서열에 대한 l-mer (-1 옵션) frequency 테이블을 생성한다.
> build_lmer_table -sequence input_genome_sequence.fas -freq output_lmer.frequency
-
Frequency table과 genome 서열 정보로부터 repetitive elements를 찾고 이를 fasta 포맷으로 저장한다 (simple repeats, tandem repeats 포함).
> RepeatScout -sequence input_genome_sequence.fas -output output_repeats.fas -freq output_lmer.frequency
-
RepeatModeler의 RepeatClassifier 프로그램을 이용하여 repeat classification을 수행할 수 있다.
> RepeatClassifier -consensi output_repeats.fas -engine ncbi
-
trf와 nseg 프로그램을 이용하여 Low-complexity와 tandem elements를 필터링한다. 또 대부분의 transoson family는 50~10,000bp 사이라고 알려져 있기 때문에 이때 50bp 미만의 candidate repeat도 제거된다.
> filter-stage-1.prl output_repeats.fas > output_repeats.fas.filtered_1
-
반복 서열 분석하기
> RepeatMasker input_genome_sequence.fas -lib output_repeats.fas.filtered_1
-
RepeatMasker 프로그램 결과 얻어지는 각 반복서열별 반복 횟수에 따라서 필터링이 가능하다. --thresh 옵션을 이용하여 반복횟수를 지정할 수 있다 (default = 10).
> cat output_repeats.fas.filtered_1 | filter-stage-2.prl --cat=input_genome_sequence.fas.out > output_repeats.fas.filtered_2
l-mer choices #
build_lmer_table 프로그램에서 사용되는 l 값은 default로 ceil(log_4(L)+1)으로 설정되어 있다. 여기에서 ceil 함수는 소숫점을 갖는 실수를 정수로 올림하는 함수이고 log_4는 밑이 4인 로그를, L은 유전체 서열의 길이 (bp)를 의미한다.
-l 파라미터를 사용하여 l-mer 값을 변경할 수 있다. 이때 RepeatScout 프로그램을 사용할 때 동일한 l-mer를 적용해 주어야 한다. RepeatScout 역시 -l 파라미터로 값을 받는다.
Reference #
- Price A.L., Jones N.C. and Pevzner P.A. 2005. De novo identification of repeat families in large genomes.
- ISMB PowerPoint presentation
Suggested Pages #
- 0.025 Maxam–Gilbert sequencing
- 0.025 DNA
- 0.025 시퀀싱장비
- 0.025 Sanger Sequencing
- 0.025 Next-generation_sequencing
- 0.013 Illumina
- 0.013 HiSeq
- 0.013 RS
- 0.013 PGM
- 0.013 핵산
- More suggestions...