Skip to content

SRA 전사체분석예제 #
Find similar titles

Introduction #

NCBI의 SRA 데이터베이스에는 genome, RNA-seq, miRNA-seq, ChIP-seq, RIP-seq, HiC-seq, methyl-seq 등 다양한 sequencing raw data가 등록되어 있으므로 이 데이트를 활용한 분석 예제를 소개하고자 한다. 소나무에서 추출한 소나무재선충 RNAseq 데이터 (He, Long-Xi, et al. 2016)를 이용한 전사체 분석을 위해서 de novo transcriptome assembly와 expression 분석을 수행한다.

SRA download #

NCBI에 등록된 3 샘플의 정보는 다음과 같다.

  1. SRR2336946 : Bx_a (aseptic B. xylophilus)
  2. SRR2342509 : Bx_b (B. xylophilus treated with S. maltophilia NSPmBx03)
  3. SRR2342510 : Bx_w (wild-type Bursaphelenchus xylophilus)
    • endobacteria : Stenotrophomonas maltopholia

먼저 데이터를 다운로드하기 위해서 fastq-dump 프로그램을 이용한다. 이때 단순히 다운로드하여 trinity로 assembly를 수행하면 다음과 같은 에러가 발생하므로 반드시 header를 변경하여 다운로드 받도록 한다.

Error, cannot convert fastq file to fasta since cannot recognize read orientation as /1 or /2 (instead: F)

Trinity가 제안하는 파일 다운로드 방법은 아래와 같다.

SRA_TOOLKIT/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files sra

De novo assembly #

표준유전체나 표준전사체 서열이 공개되어 있지 않다면 de novo assembly를 수행할 필요가 있다. De novo assembly는 레퍼런스에 reads를 맵핑하여 결과를 얻는 것과 달리 짧은 서열의 reads를 서로 연결하여 하나의 contig (transcript)를 구축하는 것이므로 시퀀싱 raw 데이터에 포함될 수 있는 adapter, low quality base, contaminant 등을 충분히 제거하고 진행하여야 한다. 각 분석 방법은 아래 링크를 참고한다.

  1. raw data의 preprocessing : Trimmomatic
  2. trinity를 이용한 de novo assembly : Trinity

Expression analysis #

발현 비교 분석을 위해서는 RSEM, HTSeq과 턱시도 프로토콜(Tuexdo protocol)로 유명한 TopHat, Cufflinks를 이용할 수 있다. 다만 이 글에서 다루고 있는 소나무재선충과 같이 샘플링이 어려운 경우, 혹은 연구자의 사정에 의해서 반복수가 없이 등록된 샘플의 경우에는 발현 비교 분석이 어려울 수 있는데 RSEM에서는 직접 dispersion 값을 입력하는 등의 방법을 제공하고 있다 (EdgeR_with_no_replicate 참고).

조직별/조건별 샘플의 발현값을 이용하여 DEG (Differentially expressed gene)를 추출하여 유의미한 유전자를 뽑고 이를 R (프로그래밍_언어)/Heatmap이나 R (프로그래밍_언어)/VennDiagram으로 도식화할 수 있다.

Further study #

샘플의 조건별 발현값에 따라 유의미한 생물학적 의미를 도출하기 위해서는 pathway 분석이나 co-expression network 분석 등을 추가로 수행하면 더욱 좋다.

  1. transcript의 생물학적 기능 분석 : Trinotate

    • de novo transcriptome assembly를 통해 얻어진 transcript의 기능을 알아보기 위해서 Trinotate유전자_기능_분석/Blast2GO 등과 같은 프로그램을 사용할 수 있는데 Trinotate로 분석을 수행할 경우 무료로 KEGG, GO, COG 정보를 얻을 수 있다는 장점이 있다. 다만 데이터베이스가 UniProt Swiss-Prot에 불과하고 리눅스 환경에서만 작동한다는 한계가 있다. 이를 보완할 수 있으며 다양한 그래픽 결과를 제공하는 프로그램이 바로 유전자_기능_분석/Blast2GO이다.
  2. pathway 분석 : Pathview

    • 관심있는 KEGG pathway 내에서 조직별/조건별 유전자의 발현 변화를 확인하기 위해서 이를 시각화할 수 있는 프로그램이다. Bioconductor 패키지로 제공하는 R 소스 기반의 무료 프로그램으로 reference로 제공하지 않는 non-model organism의 분석을 위해서는 먼저 각 유전자 (transcript)의 KEGG ortholog ID 정보를 획득하여야 한다. 이는 1의 유전자 기능 분석 프로그램을 통해 얻을 수 있다.

또한 생명체 내에서 일어나는 생명 현상들은 하나의 유전자에 의해서만 나타나기 보다는 비슷한 발현 양상을 보이는 여러 유전자들의 움직임에 의한 것인 경우가 많다. 이를 위해서 다음 분석을 수행할 수 있다.

  1. gene set enrichment analysis : GSEA
  2. co-expression network 분석 : Biological_network/WGCNA

Suggested Pages #

0.0.1_20210630_7_v33