MG-RAST #
개요 #
MG-RAST (Metegenome RAST server)는 metagenome sequencing 데이터를 분석할 수 있는 웹 기반의 시스템이다. 꾸준히 업데이트되고 있으며 현재 Version 4.0.3 버전이 지원되고 있다.
MG-RAST는 분석 요청 후 accession 번호가 할당되고 queue 형식으로 분석이 진행된다. 등록한 데이터에 따라서 일주일 이상의 시간이 소요되는 등 분석에 많은 시간이 소요된다는 단점이 있다. 하지만, 여러 데이터를 같은 파이프라인으로 분석을 수행 후 비교할 수 있다는 점과 현재 metagenome 데이터 분석에 사용되는 SEED, K.O. term, COG, eggNOGs 등 다양한 데이터베이스를 이용한 데이터 분석 결과를 볼 수 있다는 점은 장점으로 볼 수 있다.
MG-RAST 활용을 위해 우선 시스템에 사용자 등록을 해야 한다. 분석 요청은 두 가지 방법으로 할 수 있다. 우선, 사용자 등록 후 사용자가 웹 시스템에 접속하여 분석하고자 하는 fasta, fastq 또는 sff 형식의 원천데이터 파일과 meta 데이터 등록 후 시스템에 분석을 요청하는 방법이다. 두 번째는 MG-RAST에서 제공되는 API를 사용하여 커맨드 상으로 데이터 등록 및 분석 요청을 할 수 있다.
사용자가 요청한 분석이 완료되면, 분석 결과를 시스템상에 가시화해 주며, 분석 결과를 파일로 다운로드 할 수 있다.
MG-RAST 데이터 분석 프로세스 #
MG-RAST 파이프라인은 다음과 같이 진행된다.
- Data hygiene - Artificial duplicates 서열 제거 및 서열 데이터 QC
- Feature identification
- protein coding gene : 초기 similarity-based gene prediction 방법에서
Machine learning 기법을 적용한 기법으로 protein coding gene calling을 수행 - rRNA : SILVA, Greengene and RDP 데이터베이스를 기반으로 rRNA detection 수행
- protein coding gene : 초기 similarity-based gene prediction 방법에서
- Feature annotation
- protein filtering(rRNA와 protein coding 영역이 중복되는 경우 제거
- AA clustering
- M5nr, SEED, IMG, UniProt, KEGG, eggNOGs 등의 데이터베이스에 기반한 protein identification
- rRNA-clustering
- SILVA, Greengenes, RDP 등 데이터베이스에 기반한 rRNA identification
- Profile generation - 분석 결과 통합 및 summarization