Skip to content

De novo assembly #

Find similar titles

14회 업데이트 됨.

Edit
  • 최초 작성자
    Sujeong
  • 최근 업데이트
    shlee

Structured data

Category
Analysis

De novo assembly #

정의 #

De novo assembly(드노보 어셈블리)는 별도의 reference gene 없이 유전체를 만드는 Assembly로 쉽게 말하면, 유전체 초안지도 작성이라고 할 수 있다.

참고로 de novo란 라틴어에서 유래한 말로 ’처음부터(from the beginning)‘, ’다시(again)‘를 뜻한다.

배경 #

Human genome project 이후에 다양한 종에서 Whole Genome Sequencing (WGS)이 진행되고 있었다. NGS 시대에 들어 유전체 시퀀싱을 단 7.5시간 만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3일 만에 논문으로 발표한 경우도 있었다. 그러나 미생물을 제외한 대부분의 종에서는 아직까지 NGS를 이용한 de novo assembly로 유전체 시퀀싱을 완성한 팀은 없다고 한다.
짧은 read의 제한적인 정보로 복잡한 유전체 구조를 밝히기엔 어려움이 따르기 때문에 reference가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads를 생성하는 long read 시퀀싱이 유용하다. 이때, 유전체 구조상 반복 서열과 같은 서열상의 정보로만 분석 되지 않는 부분은 paired-end read의 단편 크기를 다양하게 디자인하여 long read와 함께 분석한다.

과정 #

표준유전체가 없는 대상의 경우 Roche 454 GS-FLXIllumina HiSeq2000 등의 장비를 사용해서 중거리 또는 단거리 서열들을 생산하고 이를 생명정보학적으로 연결 조립해야 한다. 기존 Sanger법과는 달리 서열 증폭을 위한 배양단계가 빠지므로 드노보 어셈블리에 필요한 서열을 단기간에 생산할 수 있다.

1. overlap graph 혹은 de Bruijn graph방식에 의해 [[Contig]]를 만든다.  
(주로 Paired-end로 생산된 짧은 단편이 사용된다.)  
2. contig를 Mate-pair 방식으로 생산된 긴 라이브러리로 서로 gap을 포함하여 [[Scaffold]]를 만든다.  
3. scaffold들은 gap filling 과정을 거쳐 draft 유전체로 완성된다.

overlap graph방식 #

overlap graph 방식은 기존에 Sanger법에서 쓰였던 방식이다.
Overlap graph 방식은 모든 에러에 강한 반면 계산 중간에 나오는 결과의 저장과 불러들임이 빈번히 일어나므로 고속의 대용량 저장장치가 성능을 좌우한다.

de Bruijn graph 방식 #

NGS로 생산된 대용량의 데이터를 처리하기 위해서 최근 개발된 방식이다.

de Bruijn graph 방식은 Indel 에러에 약한 반면 overlap graph 방식에 비하여 수 십배 이상의 빠른 속도와 데이터의 증가에 따라 필요한 컴퓨터 리소스의 증가가 훨씬 적다는 점이 장점이지만, 기본적으로 계산에 필요한 데이터를 메모리에 모두 올려 작업을 수행하므로 대용량 메모리가 장착된 시스템이 요구된다.

<참조 : http://blog.daum.net/kimuks/7532948>

시퀀싱 #

NGS 시퀀싱 기기는 현재 Illumina의 HiSeq/MiSeq, Roche의 454 GS-FLX+, Life Technologies의 SOLiD/IonTorrent, 및 PacBio RS가 있다.
각 기기에서 나오는 결과는 크게 FASTQFASTA포맷으로 변환하여 어셈블리 툴에 활용 가능하다.

Hybrid assembly #

De novo assembly를 통해 genome 구축을 진행할 때 보통 Illumina short read와 Pacbio long read를 hybrid해서 genome 구축을 진행한다. 그 이유는 아무래도 단방향으로 읽는 Pacbio long read만으로는 error가 많이 생겨 accuracy가 낮기 때문이고, Illumina short read만으로 genome 구축하기에는 gap이 많이 생기기 때문이다. 그렇기 때문에 각각의 단점을 보완하여 염기 당 정확도가 훨씬 높은 Illumina short read를 Pacbio long read를 이용한 초안 어셈블리에 매핑을 진행한다.

Hybrid assembly 방법 #

  1. Illumina reads pre-processing
  2. Pre-processing reads을 PacBio reads에 mapping
  3. Coverage와 gap에 근거해, 맵핑이 안되는 부분을 trimming
  4. 각각의 long read와 short read mapping을 기초로 하여 consensus sequence 생성
  5. error-correction한 read를 가지고 assembly

그리고 Pilon에 이 정렬 파일을 제공하여 초안 어셈블리를 다듬을 수 있으며, BUSCO를 통해 신뢰도 평가를 추가로 진행한다.

Incoming Links #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20240214_1_v81