Skip to content

RSEM STAR #

Find similar titles

Structured data

Category
Software

Introduction #

RSEM을 이용하여 RNA-Seq reads를 genome에 맵핑할 때 STAR aligner를 사용할 수 있다. RSEM과 별개로 STAR를 설치 후 진행 가능하다.

Process #

bowtie2 등의 aligner를 사용하여 분석하는 방법과 동일하게 1. genome indexing (rsem-prepare-reference), 2. 발현 추정(rsem-calculate-expression)의 순으로 진행되며 이때 aligner를 STAR로 지정한다. STAR가 전역변수로 지정되지 않았다면 path도 함께 입력해주어야 한다.

Genome indexing #

rsem-prepare-reference --gff3 [GFF file - 편집 권장] --star --star-path [path to STAR] -p 40 --star-sjdboverhang [99] [genome fasta 서열, 예: genome.fa] [reference name, 예: genome]

GFF 파일 편집 #

기본 gtf 포멧의 유전자 모델 파일에 잘 작동하나 gff format의 파일만 가지고 있는 경우 다음과 같이 개행(공백으로만 이루어진 줄)이 없고 gene, mRNA, exon을 갖는 가장 기본적인 형태로 수정 후 사용할 것을 권장한다.

Chr1    ISG gene    1142873 1177587 .   +   .   ID=Chr1CG000490
Chr1    ISG mRNA    1142873 1177587 .   +   .   ID=Chr1CG000490;Parent=Chr1CG000490
Chr1    ISG exon    1142873 1142914 .   +   .   Parent=Chr1CG000490
Chr1    ISG exon    1176267 1177587 .   +   .   Parent=Chr1CG000490

메모리 에러 문제 처리 #

STAR aligner를 이용하여 genome indexing을 수행할 때 memory error가 발생하는 경우가 있다(아래 에러 메세지 참고).

EXITING because of FATAL PARAMETER ERROR: limitGenomeGenerateRAM=31000000000is too small for your genome

이 경우 직접 STAR로 맵핑 후 bam 파일을 이용하여 RSEM에서 발현을 정량할 수 있고(STAR 링크 참고) Perl 언어로 작성된 RSEM의 genome indexing script를 수정 후 진행할 수 있다.

rsem-prepare-reference script 수정 #

if ($star) {
my $out_star_genome_path = dirname($ARGV[1]);
$command = $star_path . "STAR " .
                    " --runThreadN $star_nthreads " .
                    " --runMode genomeGenerate " .
                    " --genomeDir $out_star_genome_path " .
                    " --genomeFastaFiles @list " .
                    " --sjdbGTFfile $gtfF " .
                    " --sjdbOverhang $star_sjdboverhang " .
                    " --limitGenomeGenerateRAM 200000000000 " .
                    " --outFileNamePrefix $ARGV[1]";
&runCommand($command);
}

rsem-prepare-reference 스크립트를 오픈 후 위와 같이 --limitGenomeGenerateRAM 값을 수정한 후 이후 분석을 진행한다.

발현 추정 #

발현 추정은 rsem-calculate-expression 프로그램으로 진행되며 aligner만 STAR로 지정하여 분석 가능하다(필요시 path 지정).

rsem-calculate-expression --star -p 40 --keep-intermediate-files --star-gzipped-read-file --paired-end [stem_forward_paired.fq.gz] [stem_reverse_paired.fq.gz] [genome indexing 과정에서 입력한 reference name, 예: genome] [output, 예: stem]
  1. --keep-intermediate-files : STAR mapping 결과 파일을 삭제하지 않고 유지
    • STAR mapping 통계 로그를 확인할 수 있어서 유용
  2. --star-gzipped-read-file : input file이 gzip format으로 압축되어 있을 경우
0.0.1_20231010_1_v71