Skip to content

cross-methodological reproducibility #
Find similar titles

Structured data

Category
Analysis

Multi-platform and cross-methodological reproducibility of Transcriptome profiling by RNA-Seq in the ABRF NGS study #

Nat Biotechnol. 2014 32:915-925

목적 #

다양한 NGS 플랫폼의 performance를 측정하여 최적의 방법을 찾아내고자 함

연구결과 #

1) 플랫폼, RNA 샘플, 시퀀싱 프로토콜

① 플랫폼은 i) Illumina HiSeq 2000/2500, ii) Roche 454 GS FLX+, iii) Life Technologies Ion Personal Genome Machine (PGM), iv) Proton, v) PacBio 의 5 종류의 플랫폼

② 데이터는 20개의 기관의 25개 core facility를 포함하는 5개의 ABRF 연구 그룹에서 생산됨

③ A: cancer cell line에서 얻어진 RNA; B는 human brain에서 얻어진 RNA 이며 C는 75%A+25%B, D는 25%A+75%B로 이루어진 mixture임

④ 모든 샘플은 External RNA Control Consortium (ERCC)로부터 합성 RNA spike-ins를 포함하고 있음

2) Base quality, data quality and duplicate rates

① 모든 플랫폼에서 1~16 base까지는 biased QV 분포를 보이며 이는 RT priming 단계에 의한 것으로 알려진 현상임

② 샘플 A, B에서 비슷한 QV profile을 보이며 서로 다른 RNA size fraction에서도 비슷함

③ 서로 다른 라이브러리 제작 기술과 시퀀싱 기법의 차이가 QV에 영향을 줄 수 있음에도 불구하고, 가장 좋은 QV는 PacBio의 circular consensus sequencing에서 얻어짐

④ single-base substitution은 모든 플랫폼을 통틀어 0.6~7.1% 가량이 존재하며 indel은 0.01~4.4% 가량이 존재함

⑤ Read length 분포하는 플랫폼에 따라 각기 다르게 나타나는데 454는 Gaussian, Proton과 PGM은 ski-jump, Illumina는 uniform으로 나타남

⑥ 모든 플랫폼에서 51%를 넘지 않는 read들이 duplicate인 것으로 추정되며 454와 PacBio가 12~20%의 가장 낮은 duplicate를 보임

Image

3) Coverage of genes

① 유전자의 5’, 3’ end의 coverage를 분석한 결과 그림 2와 같은 분포를 보임

② Ribo-depleted RNA 샘플에 대해서는 degradation 되었든지 되지 않았든지 상관없이 polyA-selected 라이브러리 보다는 훨씬 더 uniform한 커버리지를 보임

③ PacBio 플랫폼이 유전자의 5’~3’ 에 이르기까지 가장 uniform한 커버리지를 보임

Image

4) Transcriptome profiling and splice junction detection

① 각 플랫폼은 median 값 11~39% 가량의 inter-site CV를 보이며 HiSeq이 가장 낮은 CV를 나타냄

② 각 샘플 내 유전자 발현 값의 R^2 값을 산출한 결과 Illumina 플랫폼에서 가장 높은 correlation을 보였으며 전반적으로 평균 0.83의 R^2값을 보임

③ 플랫폼 간의 R^2는 평균 0.86 이상을 보이며 PrimePCR 결과와 비교했을 때 454 < PGM < Proton, HiSeq 순으로 나타남

④ 시퀀싱 depth가 증가할수록 찾아지는 유전자의 개수는 현저하게 증가하며 (그림 3D) splice junction에 대해서는 Proton, PGM, 454 플랫폼이 HiSeq 보다 더 많은 junction을 찾아냄 (그림 3E). 하지만 Illumina MiSeq을 이용했을때 (2X250bp PE) 비슷한 정도의 junction을 찾아낸 결과를 비추어 볼 때 junction은 라이브러리 제작이나 시퀀싱기법보다는 read의 길이에 더욱 의존적인 것을 알 수 있음

⑤ 그림 3F에 의하면 긴 read length를 제공하는 PacBio나 454가 더 많은 splice junction을 찾아낸 것을 알 수 있으며 그림 3G에 의하면 3개 이상의 플랫폼에서 공통적으로 찾아지는 splice junction가 다수인 것으로 보이며 신규 junction는 플랫폼 공통적으로 찾아지는 개수가 적음

Image

⑥ SRP9과 같은 rare isoform을 찾아내는데 있어서 HiSeq이나 Proton을 이용하여 read depth를 증가시키는 것이 도움이 되지만 PacBio와 같이 긴 read를 생산하는 경우에는 exon간의 uniform한 커버리지를 얻을 수 있음

⑦ 그림 4B에 따르면 각 플랫폼에서 얻어지는 DEG는 많은 read depth를 제공하는 플랫폼은 훨씬 더 높은 공통 DEG를 도출하며 각 플랫폼에 특이적인 DEG가 6~11% 가량 존재함

Image

5) Influence of library preparation on Transcriptome profiles

① DEG 분석에 영향을 미치는 또 다른 인자를 분석하기 위해 Illumina HiSeq 2500을 이용시 polyA enrichment나 ribosomal RNA depletion에 의한 라이브러리의 영향을 분석하였음

② Ribo-depleted library는 40~47%가량이 intron에 mapping되는 것에 비해 poly-A RNA는 7~12%가량이 intron 영역에 mapping 되었음

③ 발현량이 낮은 유전자는 Ribo-depleted library에서 더 많이 발견되었고 poly-A library는 발현량이 높은 유전자 및 3’UTR이 더 많이 발견되었음

④ Ribo-depleted library는 non-coding RNA가 많이 존재하였고 polyA library는 protein-coding gene과 mitochondrial gene들이 많이 존재하였음

⑤ DEG는 A(cancer) vs. B(brain), A(cancer) vs. D(25%A+75%B) 분석에서 가장 많이 도출되었으며(Figure 5B) 두 종류의 다른 library에서 비슷한 패턴을 보였음 (Figure 5C)

⑥ 얻어진 DEG를 GSE5350에 있는 동일한 RNA 샘플로부터 얻어진 802개의 TaqMan assay 결과와 비교했을 때, 두 라이브러리 간에 유사한 correlation coefficient를 보였음

6) Impact of RNA degradation on transcriptome profiling

① 좋지 않은 RNA quality의 영향을 보기 위해 RIN 값이 2 이하가 될 때까지 heat, sonication, RNase-A 등으로 RNA를 degradation 시킴

② 그림2에서 나타나는 바와 같이 RNA degradation(H,R,S)되었을 때도 유전자 5’~3’에 대한 커버리지는 크게 영향을 받지 않음

③ 유전자 detection이나 DEG 도출에 미치는 영향도 크지 않았음

Image

요약 #

Image

[출처 : http://www.ncbi.nlm.nih.gov/pubmed/25150835]

0.0.1_20210630_7_v33