Skip to content

Shotgun sequencing #
Find similar titles

Shotgun metagenomic sequencing #

Shotgun metagenomic sequencing
Shotgun metagenomic sequencing은 연구자들이 주어진 복잡한 샘플에 존재하는 모든 유기체의 유전자를 종합적으로 샘플링 할 수 있게 하며 미생물학자들이 박테리아의 다양성과 다양한 환경에서의 분포를 알 수 있게 해줍니다.
Shotgun metagenomic sequencing을 통해 최종적으로 얻고자 하는 것은 환경 샘플 내에 어떤 미생물들이 구성하고 있는지, 그리고 그들이 기능적으로 어떤 역할을 하는지를 확인하는 것입니다. 따라서 어떤 미생물들이 분류학적으로 포함되어 있는지는 taxonomic classification과 population 분석을 통해, 그리고 functional analysis를 통해 그들이 어떤 기능을 하는지 알 수 있습니다.

Shotgun metagenomic sequencing2

* 환경샘플 → 미생물 분리 → 토탈 DNA 추출 → 염기서열 분석 → 랜덤 시퀀싱 → De novo assembly → alignment, profiling, ORF → community and functional structure

이 워크플로우는 전형적인 Shotgun metagenomic 분석 방법을 보여주고 있습니다.
먼저 시퀀싱을 통해 얻은 서열 데이터는 quality control을 거쳐서 고품질의 데이터를 가지고 분석을 수행하며, 분류학적인 또는 기능적인 특징을 중심으로 분석을 나눌 수 있습니다. 마커 유전자 분석, Binning, Assembly 분석은 커뮤니티의 분류학적인 또는 계통 발생적 다양성에 대한 인사이트를 제공할 수 있습니다.
또한, 이들이 어떤 생물학적 기능에 특성화되어 있는지 유전자 예측 및 기능적 주석 분석을 통해 기능을 식별할 수 있습니다. 이러한 다양한 분석 결과는 다른 메타 게놈 분석을 통해 얻은 결과와 비교하여 커뮤니티 간의 유사성을 정량화하고, 다양한 유형의 커뮤니티 계층 분류 및 기능을 식별을 통해 바이오마커 등을 검출할 수 있습니다.

Shotgun 메타게놈 분석을 위한 단계
#

1. NGS 시퀀싱 및 Quality control
#

Whole metagenome shotgun 시퀀싱을 위해서 샘플 내 미생물 커뮤니티들의 충분한 유전체 서열을 확보하여 분석해야 하므로 대용량 데이터를 생산하는 Illumina MiSeq, Illumina NextSeq, Illumina HiSeq을 많이 활용합니다.
Shotgun 기반의 시퀀싱 접근은 무작위로 DNA를 절단하고 많은 짧은 서열을 확보하여 consensus sequence로 재구성하는 방법입니다. 이렇게 생산된 데이터는 FASTQ 형식으로 제공되는데 FASTQ 포맷은 시퀀스와 Quality scores를 모두 결합한 시퀀싱 데이터의 공통 파일 형식입니다.
FASTQ 파일 내용
1) 레코드 식별자만 포함하는 '@' 제목 줄
2) 판독의 뉴클레오티드 서열
3) 시퀀스 라인의 끝과 품질 문자열의 시작을 알리는 '+'라인
4) 판독의 각 뉴클레오티드에 대한 Quality scores

- Adaptor Trimming
#

Adaptor Trimming
먼저 라이브러리 구축 등의 이유로 어댑터를 붙여 실험을 수행하였을 때 어댑터는 합성 시퀀스이므로 분석을 진행할 때 분류학적 식별이 복잡해져 실제 증폭되어 시퀀싱 된 영역(amplicon)만 남도록 제거하는 작업을 진행합니다.

- Quality Trimming
#

Quality Trimming
그다음 품질 기준을 만족하지 않는 모든 서열은 quality trimming이라는 작업을 통해 추가 분석에서 제거하게 됩니다. 예를 들어 서열 길이, 최소 퀄리티 스코어, 바코드 서열의 불일치 등의 다양한 파라미터를 활용합니다. 일반적으로 퀄리티 스코어는 Q30 이상이면 퀄리티가 좋은 서열 수준을 의미합니다.

𝑄 = −10 𝑙𝑜𝑔10𝑃
Q : quality score , P : phred score

2. Assembly와 Binning
#

- Assembly
#

Read~Unigene
NGS 시퀀싱을 통해 짧게 조각으로 얻은 서열들은 assembly 과정을 거치게 됩니다.
Genome assembly는 original genome sequence를 재구성하기 위해 특정 read를 더 긴 sequence로 병합하는 과정입니다. 일차적으로 read를 바탕으로 assembly 진행 후 만들어진 더 긴 서열을 contig라고 하며, contig들끼리 assemble 하여 유전체 수준의 scaffold를 구성합니다. Genome assembly의 이상적인 결과는 유기체의 완전한 유전체 서열을 완성하는 것입니다.
이렇게 진행되는 Assembly에는 2가지 방법이 있습니다.

1) reference-guided assembly
참조 유전체 및 데이터베이스에 정렬하는 방법으로 기존에 알려진 참조 유전체 서열과 등록된 유전체 정보의 품질에 제한적일 수밖에 없습니다.
보통 Larger genomic mutations (insertions, deletions, rearrangements), 유연관계가 먼 종에 대한 분석, 대부분의 바이러스에는 적용하기 힘듭니다.

2) De novo assembly
시퀀싱 된 read의 충분한 lengths, depths, coverage를 이용하여 조합하기 때문에 Low coverage 영역이나 long repeat 영역에서는 쉽지 않습니다.

De novo assembly의 경우 어떤 알고리즘 및 method를 사용하고, 어떤 파라미터로 분석하느냐에 따라 천차만별한 결과를 얻기 때문에, 다양한 assembler를 통해 데이터 분석 및 적합한 파라미터 결정이 중요합니다. Metagenomic 데이터의 de novo assembler는 SOAP de novo2, MetaVelvet 등을 많이 활용하고 있습니다.

- Binning
#

Binning까지 과정
Shotgun metagenomic 데이터는 어떤 게놈이 어떤 게놈에서 파생되는지도 정보를 모르며 특히 해당 샘플 내에 어떤 종들이 또는 몇 종이 존재하는지에 대한 사전 지식도 없어 Assembly를 통해 얻은 contig 서열들을 binning을 통해 그룹화를 진행하게 됩니다.
Binning 과정은 amplicon 데이터 처리에서 OTU 클러스터링과 동일하며 미생물 군집의 분류학적 다양성을 특성화하는 역할을 합니다.
아직 메타게놈 내 미생물 커뮤니티의 Reference database가 불완전하기 때문에 새로운 binning 알고리즘 대부분은 reference-free 접근 방식을 사용하며 taxonomy independent 형태로 진행하고 있습니다.
Taxonomy Independent binning 방법은 raw 데이터의 서열뿐만 아니라 contig를 클러스터링할 수 있으며 다음과 같은 methods가 있습니다.

1) composition based methods : 긴 시퀀스를 클러스터링하는데 최적화된 시퀀스 특성을 가지며 접근 방식은 빠른 클러스터링을 진행할 뿐만 아니라 데이터 시각화 가능성을 보장합니다.

2) abundance based methods : 미생물 샘플에서 주어진 분류군의 풍부함을 반영하는 연속 범위에 기반합니다. 접근 방식은 binning 결과를 개선하는 데 도움이 됩니다.

3) hybrid methods : composition based methods와 abundance based methods 두 가지 method의 단점을 최소화하고 보다 정확한 binning 결과를 제공합니다.

3. Shotgun metagenome 데이터의 기능적 분석
#

기능분석 파라미터
16s rRNA와 같은 amplicon-based 시퀀싱과 달리, whole metagenome 데이터는 분석된 미생물 군집의 모든 기능적 특성을 포함하고 있기 때문에 분석된 군집에 대한 생물학적 지식을 유추하기 위해 기술적이고 기능적인 분석이 필요합니다. Metagenomics의 기능 연구는 표준 유전체학에 적용되는 절차와 동일하며, 시퀀스의 annotation을 통해 기능을 할당하는 형태로 구성됩니다. 다양한 단백질의 기능 정보에 관련한 데이터베이스를 활용하여 예측된 유전자의 기능을 확인할 수 있습니다.
보통 Shotgun metagenome 서열을 조립 후, 기능을 확인하려면 단백질로 코딩되는 유전자 서열을 구조적으로 예측합니다. 이를 Gene prediction이라고 하며 크게 Evidence-based 방법과 Ab initio 방법으로 나뉩니다.

1) Evidence-based 방법
기존에 알려진 데이터베이스의 유전자 서열을 기반으로 하여 서열 유사성을 통해 예측하는 방법입니다.

2) Ab initio 방법
코딩 영역과 디코딩 영역을 구별하는 DNA 서열의 start codon/stop codon 등의 고유 인자에 기반하여 분석하는 방법입니다.

0.0.1_20210630_7_v33