유전자 기능 분석
Blast2GO
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
Blast2GO #
개요 #
blast2go 는 스페인에 위치한 BioBam 사의 대표적인 소프트웨어로 유전자 또는 단백질 서열의 기능을 예측해주는 프로그램이다. 실제로 NGS를 통해 structural annotation을 진행하거나 de-novo transcriptome을 만들어 분석하는 일이 많다. 이때, structural annotation 위에 functional annotation을 진행하거나 de-novo transcripts 의 functional annotation을 진행하여 그 의미를 파악해본다. 즉, unknown sequence 에 대해 그 기능을 알고자 할 때, 손쉽게 사용할 수 있는 tool이 바로 Blast2GO이다. Blast2GO는 GUI version과 CLI version이 있다. 최근에는 CLC bio사와 Partnership을 맺어 CLC Genomics Workbench의 plug-in으로도 사용이 가능하다.
Blast2GO versions #
CLI version (command Line) #
준비사항 #
본격적인 사용에 앞서 확인해야 할 사항들이 몇가지 있다.
프로그램 요구사양 확인 #
- 120GB의 디스크 여유공간.
- MySQL database (GPL license)
- 인터넷 연결
- 1GB 램(RAM) 메모리
- Java from Sun/Oracle (version 1.6 or higher)
Blast2GO CLI 를 사용하기 위해선 위 5가지 항목을 확인해야한다. 1번~3번 항목은 Database 구축에 관한 내용이다. Blast2GO 는 blast 혹은 InterProScan 결과로 부터 원하는 정보를 파싱하고 그 정보를 own database와 mapping해 annotation 하는 방법을 취하고 있다. 따라서, MySQL database로 채워질 120GB의 디스크 여유공간은 필수적이다. 인터넷 연결은 선택적인 요구사양이지만 인터넷이 연결되어있다면 blast2go cli 초기설정에 필요한 데이터파일들을 수동으로 연결해야하는 불편함을 피할 수 있다. Java는 최종 report pdf 를 생성할 때 사용되며, 램은 최소 1GB이상의 메모리를 가져야 한다. OS는 윈도우와 리눅스, Mac에서 모두 사용가능하지만 리눅스 서버단위에서 사용하길 권한다.
프로그램 설치파일과 라이센스 얻기 #
Blast2GO는 일반적은 프로그램과는 다르게 blast2go homepage에서 신청을 통해 얻을 수 있다. 현재 trial licence를 제공하고 있고, 그 기간 또한 테스트하기 충분하다. 신청을 했다면 곧 담당자에게 초기 설치파일이 담긴 메일을 받을 수 있으며 licence 발급을 위한 "Key file"을 요청 받게된다. 아래에 수신한 메일의 일부를 이용해 소개한다.
Dear Seung il Yoo,
thank you for your interest in the Blast2GO Command Line. Please find attached to this email the Blast2GO Command Line quotation as requested online.
If you want to try Blast2GO Command Line, please follow the instructions below.
Download the software from one of the following links:...(중략)
unzip the file. You can now run the Blast2GO Command Line in Demo Mode.
To activate the free and full functional trial version of the software you have to obtain an individual license key specific for your workstation. To do so, a signature of the workstation where the Blast2GO Command Line will be used, has to be generated. With the command line parameter -createkeyfile you can generate a file called information.b2g. This file contains this unique signature which we will need to generate your trial key. Please send us this file by answering to this email.
Steps to activate the Blast2GO Command Line:
1. Generate the information.b2g by executing the follow command:
MAC/Linux: ./blast2go_cli.run -createkeyfile
Windows: blast2go_cli.exe -createkeyfile
2. Send the information.b2g to our support team: clisupport@blast2go.com
3. Blast2GO support team will create and send you a license.b2g key which has to be placed in the same folder as the blast2go_cli executable (.exe/.run)
4. Once you obtained your license.b2g file from us you can check the details of a license with the command line option -showlicenseinfoLooking forward to issue your trial license key and to get you started with the Blast2GO Command Line.
If you have any further questions please do not hesitate to contact us.Best regards,
Mariana
위의 내용과 같이 간단한 절차를 걸쳐 "Key file"을 만들어 송신하면 Blast2GO cli 를 테스트 할 수 있는 trial licence를 얻게 된다.
초기설정 #
프로그램 설치와 라이센스를 얻어 적용했다면 초기설정 단계를 거쳐야 한다.
데이터베이스 #
Blast2GO CLI 의 다양한 설정들을 제어하는 파일이 존재한다. *.prop 파일이 그것인데 이 안에서 다양한 제어가 가능하다. 우선적으로 구축해야할 데이터베이스도 이 파일에서 설정을 할 수있다.
// if you want to use a local file, please user the following URI format // Dbacces.assocdbdata=file:///path/to/file/local_b2g_db/b2g_feb14/go_201402-assocdb-data.gz
Dbacces.assocdbdata=http://archive.geneontology.org/latest-full/go_201405-assocdb-data.gz Dbacces.geneinfo=ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz Dbacces.gene2accession=ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz Dbacces.idmapping=ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
위에 보이는 라인은 데이터베이스를 구축하는데 사용할 데이터를 설정하는 부분이다. 각 PATH에 접속해 새롭게 업데이트된 데이터가 있는지 확인하고 있다면 이 라인을 수정하면 최신의 데이터베이스로 Blast2GO cli를 사용할 수 있다.
설정이 끝났다면, 다음 command line 을 통해 GO database 구축을 시작할 수 있다.
[siyoo@localhost blast2go_cli_v1.0.2]# ./blast2go_cli.run -creategodb -properties cli.prop
구축 시간은 만 24시간 정도 소요되며, 위의 데이터 파일을 이용해 구축된 데이터베이스 통계치는 다음과 같다.
Category | count |
---|---|
GOs | 39,175 |
Associations | 233,557,844 |
Gene Products | 36,531,533 |
Genes to Accessions | 44,937,553 |
Gene Info | 15,412,358 |
GIs to Uniprot | 72,720,000 |
구동 #
데이터베이스까지 설치가 완료됐다면, 이제는 본격적으로 사용할 준비가 된것이다. 설치파일을 요청할 때 함께 첨부된 메뉴얼과 함께 진행할 경우 손쉽게 사용할 수 있다.
장점과 아쉬운 점 #
Blast2GO는 앞서 말한 바와 같이 unknown sequence 에 대해 그 기능을 알고자 할 때 손쉽게 사용할 수 있는 프로그램이다. 또한, 그 결과를 report pdf 형식으로 제공하기 때문에 사용자가 결과를 파악하기 쉽고 분석의 방향을 정할 때도 유용하게 활용할 수 있을 것으로 보인다. 하지만, COG나 KEGG 와 같은 정보는 얻을 수가 없어 좀 더 많은 정보를 원한다면 bioinfomatican의 추가적인 도움을 받아야 할 필요성이 있다.
GUI version(Graphic User Interface) #
Blast2GO GUI version 시작하기 #
Blast2GO(이하 B2G) GUI version을 시작하는 것은 쉽다. Java Web Start System으로Java가 있어야만 사용할 수 있다. Java 버전7 업데이트51 이상을 권하지만글쓴이의 경험상 높은 버전을 사용하였을 때, 실행이 되지 않았다. 만약 자신의 컴퓨터에서 B2G가 실행되지 않는다면 Java 버전을 확인하길 바란다. 다운로드는 https://www.blast2go.com/start-blast2go 로 접속하여 할당할 메모리를 선택해준다. 만약 메모리보다 높은 처리량을 요구하는 데이터를 분석할 경우 작동하지 않을수도 있으니 자신의 데이터에 적절한 메모리를 선택하면 된다. 기본적으로 1000MB가 설정되어 있다.
Blast2GO 사용하기 #
실행을 하면 Java 업데이트를 추천하는 메시지가 뜰 것이다. 과감히 무시하라. 업데이트를 하면 실행이 안된다. 만약에 실수로 업데이트를 했다면 다시 지우고 버전7 업데이트51을 리인스톨하라. 끝이다. 실행만하면 자동으로 B2G창이 뜬다. 만약 PRO버전 사용자는 메뉴바의 파일에 들어가서 자신의 라이선스를 활성화시키기만 하면된다.
그림1. Blast2GO 메인화면
분석을 위해서는 파일을 불러들여와야하는데 B2G는 fasta와 dat, annot 확장자를 지원한다. 당장 데이터의 분석보다 기능을 익히기 위해서라면 실제 데이터보다는 'Load 10 Example Sequence'를 이용하면 더 빠르게 기능을 익힐 수 있다.
그림2. File메뉴와 import가능한 포맷들
인터페이스를 보면 정말 차례대로 사용자가 사용하기 편하도록 되어 있는것을 볼 수 있다. 그냥 Blast-Mapping-Annotation 순서대로 진행하기만 하면 된다.
그림3. 행들이 알록달록 하다.
행들의 색깔은 해당 시퀀스의 분석상태에 따라 달라진다. 차이가 눈에 잘 띄어 한눈에 들어오는 분석상태. 분석이 덜 된곳이 있다면 다시 분석을 한다던지, 혹은 분석이 된 것만 볼 수 있다.
그림4. 분석 진행정도에 따라 색깔로 구분
- 차트 B2G GUI버전의 장점은 생물정보학의 전문적인 지식 없이도 분석할 수 있으며, 분석 결과를 가시화 해준다는 점, 각종 통계결과를 손쉽게 파이 그래프나 막대 그래프로 볼 수 있다는 점 등이 있겠다.
그림5. B2G GUI버전, 차트보기
출처 : https://www.blast2go.com/features그 외에도 KEGG 맵이나 DAG를 자동으로 그려주고 확인 할 수 있다는 장점들이 있다.