RSEM
STAR
#
Find similar titles
- 최초 작성자
Structured data
- Category
- Software
Table of Contents
Introduction #
RSEM을 이용하여 RNA-Seq reads를 genome에 맵핑할 때 STAR aligner를 사용할 수 있다. RSEM과 별개로 STAR를 설치 후 진행 가능하다.
Process #
bowtie2 등의 aligner를 사용하여 분석하는 방법과 동일하게 1. genome indexing (rsem-prepare-reference), 2. 발현 추정(rsem-calculate-expression)의 순으로 진행되며 이때 aligner를 STAR로 지정한다. STAR가 전역변수로 지정되지 않았다면 path도 함께 입력해주어야 한다.
Genome indexing #
rsem-prepare-reference --gff3 [GFF file - 편집 권장] --star --star-path [path to STAR] -p 40 --star-sjdboverhang [99] [genome fasta 서열, 예: genome.fa] [reference name, 예: genome]
GFF 파일 편집 #
기본 gtf 포멧의 유전자 모델 파일에 잘 작동하나 gff format의 파일만 가지고 있는 경우 다음과 같이 개행(공백으로만 이루어진 줄)이 없고 gene, mRNA, exon을 갖는 가장 기본적인 형태로 수정 후 사용할 것을 권장한다.
Chr1 ISG gene 1142873 1177587 . + . ID=Chr1CG000490
Chr1 ISG mRNA 1142873 1177587 . + . ID=Chr1CG000490;Parent=Chr1CG000490
Chr1 ISG exon 1142873 1142914 . + . Parent=Chr1CG000490
Chr1 ISG exon 1176267 1177587 . + . Parent=Chr1CG000490
메모리 에러 문제 처리 #
STAR aligner를 이용하여 genome indexing을 수행할 때 memory error가 발생하는 경우가 있다(아래 에러 메세지 참고).
EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genome
이 경우 직접 STAR로 맵핑 후 bam 파일을 이용하여 RSEM에서 발현을 정량할 수 있고(STAR 링크 참고) Perl 언어로 작성된 RSEM의 genome indexing script를 수정 후 진행할 수 있다.
rsem-prepare-reference script 수정 #
if ($star) {
my $out_star_genome_path = dirname($ARGV[1]);
$command = $star_path . "STAR " .
" --runThreadN $star_nthreads " .
" --runMode genomeGenerate " .
" --genomeDir $out_star_genome_path " .
" --genomeFastaFiles @list " .
" --sjdbGTFfile $gtfF " .
" --sjdbOverhang $star_sjdboverhang " .
" --limitGenomeGenerateRAM 200000000000 " .
" --outFileNamePrefix $ARGV[1]";
&runCommand($command);
}
rsem-prepare-reference 스크립트를 오픈 후 위와 같이 --limitGenomeGenerateRAM 값을 수정한 후 이후 분석을 진행한다.
발현 추정 #
발현 추정은 rsem-calculate-expression 프로그램으로 진행되며 aligner만 STAR로 지정하여 분석 가능하다(필요시 path 지정).
rsem-calculate-expression --star -p 40 --keep-intermediate-files --star-gzipped-read-file --paired-end [stem_forward_paired.fq.gz] [stem_reverse_paired.fq.gz] [genome indexing 과정에서 입력한 reference name, 예: genome] [output, 예: stem]
- --keep-intermediate-files : STAR mapping 결과 파일을 삭제하지 않고 유지
- STAR mapping 통계 로그를 확인할 수 있어서 유용
- --star-gzipped-read-file : input file이 gzip format으로 압축되어 있을 경우