COG database
#
Find similar titles
-
최초 작성자
yhshin@insilicogen.com
- 최근 업데이트
Structured data
- Category
- Database
COG (Clusters of Orthologous Groups of proteins) database는 1997 처음 미생물 단백질의 functional annotation을 위해 만들어졌다. 이후 2003년까지 update되어오다 homologene의 개념으로 진핵생물의 ortholog database로 서비스 되다. 최근 2014년 부터 COG database로 update되어 왔다. 2020년에 홈페이지 리뉴얼 되어NCBI(https://www.ncbi.nlm.nih.gov/research/cog)에서 서비스되고 있다.
Table of Contents
COG 알고리즘 #
3종 이상의 유전체내 모든 단백질을 대상으로 homology 분석을 통해 각 종내에 가장 유사한 단백질의 pair가 서로 동일하고 이러한 reciprocal pair가 최소 3종 이상에서 triangle을 이룰때 비로소 하나의 단백질 cluster가 형성된다. 단 3종내 모델 organism이 하나 이상 존재 하는것이 좋다.
COGs 분석 방법 #
1. blast #
3종 이상의 유전체내 모든 단백질을 대상으로 나머지 두종에 대해 서열 유사성을 바탕으로 가장 유사한 단백질을 하나씩 검색한다.
종1 ---(blast)--> 종2
종1 ---(blast)--> 종3
종2 ---(blast)--> 종1
종2 ---(blast)--> 종3
종3 ---(blast)--> 종1
종3 ---(blast)--> 종2
2.reciprocal match 검색 #
종1에서 종2에 가장 서열 유사성이 높은 단백질을 검색하고 종2에서도 종1에 대해 서열 유사성이 가장 높은 단백질을 검색하여 그 짝이 서로 동일한 reciprocal match를 이루는지를 확인 한다. 이후 이러한 reciprocal match가 3종이상에서 이뤄져 삼각형을 서로 이루게 되면 비로소 하나의 cluster를 형성하게 된다.
3.paralog gene 검색 #
한종내에서 진화론적으로 유리한 조건으로 특정 유전자가 multi-copy 유전자를 갖게 될경우 cluster를 이루는 reciprocal core genes들을 제외하고 여러개의 multi-copy 유전자들은 나머지 두종에서 core gene을 subject로 갖게 되는데 이들 단백질은 paralog로 인정하게 된다.
COG database 구성 #
bacteria를 비롯해 archaea를 포함한 미생물의 유전체내 모든 유전자의 functional annotation을 위해 일차적으로 이용 되는 COGs database는 2003년까지 알파벳 기호로 표기되던 category를 13년 만에 update되면서 4631개의 COG id를 세분화 하여 부여하여 유전자 기능 정보를 세분화 하였다. COG database를 이용할경우 대부분의 유전자 기능 정보는 70% 이상 assign이 되는것으로 확인된다.
COG 기능 카테고리 #
COG의 데이터는 기능에 따라 26개의 카테고리로 나누어지며, 연관된 Organism은 최대 1,309개이고, 연관 유전체는 4198개 이다(2022년 3월 기준).
<그림1. COGs 기능 카테고리>
COG Pathway #
825개의 COGs 데이터는 63개의 Pathway 정보를 가지고 있다(2022년 3월 기준).
<그림2. COGs Pathway>
COG API #
COG에서 제공하는 모든 데이터는 API를 통하여 COGs 데이터 매핑과 다양한 데이터 검색 및 연계를 위한 외부 서비스를 제공하고 있다(2022년 3월 기준).
<그림3. COGs API>
COG 히스토리 #
COG 업데이트(2014) #
<그림4. 2014년 update된 COGs database 현황>
<그림5. 2014년 update된 COG database의 유전체내 단백질의 기능정보 coverage>
COG 업데이트(2020) #
2020년 이후 COGs 사이트는 참조 및 PDB 링크를 추가하였으며, 약 250개의 COG 주석을 업데이트 하였다. 주요 업데이트된 내용은 CRISPR-Cas 면역, 포자 형성 및 광합성과 관련된 단백질에 대한 새로운 COG, 경로 및 기능 시스템별로 그룹화된 COG 목록이다.
<그림6. COGs database 메인 페이지 및 통계>
<그림7. COGs 주요 변경 사항>
참고문헌 #
1.Galperin MY1, Makarova KS1, Wolf YI1, Koonin EV2.(2015) Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Res. 2015 Jan;43(Database issue):D261-9. doi: 10.1093/nar/gku1223. Epub 2014 Nov 26.
(http://www.ncbi.nlm.nih.gov/pubmed/25428365)
2.COG database (https://www.ncbi.nlm.nih.gov/research/cog)