STRViper
#
Find similar titles
Structured data
- Category
- Software
Table of Contents
STRViper #
Introduction #
STRViper는 Short Tandem Repeat Variation Identification from Paired-End Reads 의 약자로 STR(Short tandem repeat)을 밝히는 bioinformatics tool 이다. Detection method는 paired-end reads를 reference에 alignment하고 그 정보를 통해 sequence fragment sizes 를 얻는다. 이후, fragment size에 대한 분산을 구해 그 차이를 확인함으로 STR을 확인한다.
Install #
해당 URL에서 소스코드를 다운받아 압축을 풀고 리눅스 환경변수에 path를 추가하는 것으로 바로 사용할 수 있다.
wget http://bioinf.scmb.uq.edu.au:8080/STRViper/strviper.tar.gz
tar zxvf strviper.tar.gz
export PATH=$PATH:/data/Bioinformatics/Tools/strviper/scripts
사용법 #
아래와 같이 총 5개의 단계로 구성된다.
1. Preprocessing #
일차적으로 TRF를 이용해 repeat region을 탐색한다. 이후 TRF의 output을 STRViper의 input에 맞게 변경한다.
trf TAIR10.fas 2 5 5 80 10 40 6 -h
jsat.str parseTRF --input TAIR10.fas.2.5.5.80.10.40.6.dat --output TAIR10.str --format str
이후, paired-end reads를 이용해 alignment to reference 를 수행하며, 이때 사용되는 aligner는 bwa 나 bowtie, bowtie2등을 이용 할 수 있다.
bwa index TAIR10.fas
bwa mem TAIR10.fas read.1.fq.gz read.2.fq.gz > lib.sam
samtools view -bS lib.sam > lib.bam
samtools sort lib.bam lib.sort
2. Extract fragment size from samfile #
jsat.str sam2fragment --input lib.sort.bam --output lib.fragment
3. Sort fragment list #
jsat.str sortFragment --input lib.fragment --output lib.sort.fragment
4. Make the variation calls #
jsat.str fragment2var --trfFile TAIR10.str --output lib.strv lib.sort.fragment
5. (Optional) Convert variation calls in strv format to vcf format #
jsat.str strv2vcf --input lib.strv --output lib.vcf --reference TAIR10.fas
reference #
(Cao et al., 2013) Inferring short tandem repeat variation from paired-end short reads. Nucleic acids research.
PubMed #
http://www.ncbi.nlm.nih.gov/pubmed/24353318