차등발현 유전자 발현량 계산방법 (책 발간용 글 편집 및 수정)
#
Find similar titles
- (rev. 5)
- JSeo
Structured data
- Category
- Analysis
Table of Contents
차등발현 유전자 발현량 계산방법 #
RNA-seq을 통해 mapping되어 있는read의 수를 가지고 각 샘플의 유전자별 혹은 transcript별로 발현 정도를 확인 할 수 있다. 하지만 mapping된 read의 개수로 발현량을 정의하기에는 샘플별로 시퀀싱 데이터 크기가 다를 수도 있고, 유전자나 transcript의 길이에 따라 mapping된 read의 수도 다르기 때문에 객관적인 값이라고 보기 힘든면이 있다.
그렇기 때문에 차등발현 유전자의 발현값 계산은 이러한 오차를 줄여 조금 더 객관적인 값을 보여줄 수 있도록 정규화(normalization)를 하도록 만들어졌다.
이 페이지에서는 가장 많이 사용 되는 RPKM, FPKM, TPM 값을 계산하는 방법을 소개하고자 한다.
RPKM #
Reads Per Kilobase of transcript per Million의 약자로 transcript당 read의 수를 이용하여 발현값을 계산한 것이다. 아래에 있는 FPKM과는 공식이 같다. 다만 FPKM은 fragment가 기준이며 RPKM은 read가 기준인 점이 다르다. 공식에서 보면 전체 보고자하는 유전자나 transcript에 붙어있는 read의 개수에 million과 kilo를 곱한 다음 리드의 개수와 보고자 하는 유전자 혹은 transcript의 길이의 곱을 나눈다. 전체적인 read 개수와 유전자/transcript의 길이로 나눠 값을 사용하여 샘플이 다르더라도 절대적인 값으로 서로를 비교 할 수 있다.
FPKM #
전체 시퀀싱 read개수로 보정을 한 다음 해당하는 transcipt(혹은 gene)의 길으로 보정하는 방법은 RPKM과 같다. 다만 FPKM은 fragment가 기준이며 RPKM은 read가 기준인 점이 다르다. Read와 fragment의 차이는 Paired-end의 경우 두 개의 read가 한 fragment를 이루므로 FPKM에서는 하나라고 간주하는 값을 RPKM에서는 2로 본다는 것이다. 즉 RPKM은 FPKM값의 두배이다. Paired-end read의 경우 한 쌍의 read가 하나의 fragment를 이루는데 따라서 FPKM은 paired-end read의 RNA-seq 분석에 사용할 수 있다.
TPM #
위에 소개되었던 FPKM이나 RPKM의 경우에는 transcript의 길이나 시퀀싱 depth를 보정한 경우로 한 샘플내에서의 다른 유전자들을 비교 할 때도 쓰일 수 있다. TPM은 위의 FPKM이나 RPKM처럼 객관적인 값을 얻을 수 있으나, trancript(혹은 gene)단위를 처음 기준으로 한다는 것이 다르다. 따라서 먼저 transcript(혹은 gene)길이로 보정하여 RPK값을 구한 다음 그 RPK를 전부 더한 값으로 나눠주는 것이 TPM이다. 이 경우에는 샘플간의 비교시 더 유리하다.
동영상자료 #
아래의 동영상은 RPKM 과 TPM을 알기 쉽게 설명해 놓은것이다. 실제 같은 값을 이용하여 정규화 계산 방법의 차이를 알 수 있으며, 결과의 차이도 확인을 할 수 있다. 이 글을 쓰면서 많이 참고했던 자료로 큰 도움이 될 것이다.
Suggested Pages #
- 0.025 MapSplice
- 0.025 cDNA
- 0.025 blast
- 0.025 Whole-Genome transcriptome map
- 0.025 Reference genome
- 0.025 microarray
- 0.025 TopHat
- 0.025 GSNAP
- 0.025 exon
- 0.025 cutfflinks
- More suggestions...