Skip to content

UniProt 데이터베이스의 구성 #

Find similar titles

10회 업데이트 됨.

Edit
  • 최초 작성자
    Soohyun Jang
  • 최근 업데이트
    hmkim

Structured data

Category
Database

Uniprot 데이터베이스의 구성 #

Uniprot의 주요 데이터베이스는 UniProtKB database, UniRef database, UniParc database, Proteomes database로 구성되어 있다.

UniProtKB Database #

UniProtKB는 UniProt Knowledgebase의 약자로, UnitProt database 중에서 가장 폭넓은 정보를 제공하며 중심 역할을 하는 핵심 데이터베이스이다. 이 데이터베이스는 정확하고 일관적이며 풍부한 서열 및 기능에 대한 주석을 포함하고 있다. 단백질 서열, 유전자 이름, 서열에 대한 설명, 계통 분류 및 인용 정보 등 기본적인 정보뿐만 아니라 생물학적 존재, 생물학적 분류, 상호 참조와 실험 데이터, 컴퓨터 데이터를 바탕으로 한 명확한 주석 정보 등을 제공하고 있다. 주석의 품질에 따라 Swiss-Prot과 TrEMBL로 데이터베이스로 나누어진다.

Swiss-Prot #

Swiss-Prot의 주석의 품질은 실험 결과, 계산된 기능 및 과학적 결론을 함께 제공하는 고품질의 수동 주석 및 비중복 단백질 서열의 데이터베이스이다. 수동 주석은 단백질 서열을 포함하여 각 단백질에 대해 실험적으로 입증되었거나 컴퓨터로 예측된 데이터에 대한 비판적인 검토로 구성한다. 이러한 데이터 검토는 별도의 전담팀으로 관리되면 지속해서 업데이트되고 있다.

TrEMBL #

TrEMBL은 컴퓨터로 생성된 주석과 대규모 기능 특성화에 관련된 단백질 서열을 포함하고 있다. 기존의 Swiss-Prot과 가장 큰 차이는 별도의 검증 과정을 거치지 않은 컴퓨터 기반의 예측된 주석을 포함한 데이터이다.

UniRef Database #

UniProt Non-redundant Reference(UniRef)는 서열 공간의 전체 범위를 얻기 위해 UniProt Knowledge를 기반으로 구성된 데이터베이스이다. UniProt Knowledge로부터 컴퓨터 분석에 의하여 클러스터 된 서열들의 집합인 UniFef100, UniRef90, UniRef50을 말한다. 이 데이터베이스는 중복된 서열을 처리하면서 서열 공간의 허용 범위를 제공하며, 중복을 제거할수록 UniProt Knowledgebase 정보의 통합이 쉽고, 유사성 검색을 더 신속하게 수행할 수 있다.

UniRef100 #

UniRef100에는 모든 UniProt Knowledgebase 레코드와 선택된 UniParc 레코드가 포함되어 있다. UniRef100 식별자는 UniProtKB 액세스 또는 대표 UniProtKB 또는 UniParc 항목의 UniParc 식별자 앞에 "UniRef100_" 접두사를 배치하여 생성된다. (예: "UniRef100_P99999" 또는 "UniRef100_UPI0000027233"

UniProtKB 레코드 외에도 UniRef100에는 UniProtKB에서 다루지 않는 UniParc 항목이 포함되어 있으며 RefSeq 또는 PDB 데이터베이스에 대한 상호 참조가 포함된다.

UniRef90 #

UniRef90은 UniRef100 시드 시퀀스(필수 서열)를 클러스터링하여 생성된다. 11개 잔기보다 짧은 UniRef100 서열은 UniRef90 클러스터에서 제외된다. 각 UniRef90 클러스터에는 UniRef100 데이터베이스에서 하나의 대표적인 시퀀스가 있다. UniRef90 클러스터 제목 및 식별자는 대표적인 UniRef100 항목에서 파생된다. UniRef90 식별자는 대표의 "UniRef100_" 접두사를 "UniRef90_"(예: "UniRef90_P99999")으로 대체하여 생성된다.

UniRef50 #

UniRef50은 UniRef90 시드 시퀀스(필수 서열)를 클러스터링하여 생성된다. UniRef50 클러스터 제목 및 식별자는 대표적인 UniRef90 항목에서 파생되며, UniRef50 식별자는 대표자의 "UniRef100_" 접두사를 "UniRef50_"(예: "UniRef50_P99999")으로 대체하여 생성된다.

UniParc Database #

UniProt Archive(UniParc)는 공개된 단백질 서열 데이터 중에서 중복된 서열을 제거한 안정적이고 포괄적인 서열들로 구성된 데이터베이스이다. 공개된 단백질 서열 데이터베이스(Swiss-prot,TrEMBL,PIR-PDB,EMBL,IPI,PDB,RefSeq)에서 중복된 서열을 제거한 후 고유한 단백질 서열만으로 구축된 데이터베이스이다.

Proteomes Database #

Proteomes는 유기체(생물)에 의해 발현되는 것으로 생각되는 단백질 세트를 모아놓은 데이터베이스로 유전체가 완전히 시퀀싱 된 단백질의 Proteome 세트를 의미한다. 대부분의 UniProt Proteomes는 완전히 시퀀싱 된 유전체의 번역을 기반으로 하며 일반적으로 플라스미드 또는 유기체의 소기관 게놈과 같은 염색체 외 요소에서 파생된 서열을 포함한다. 일부 Proteomes에는 시퀀싱 오류 또는 간격으로 인해 현재 유전체 assembly(어셈블리)에 매핑(mapping)할 수 없는 고품질 cDNA를 기반으로 하는 단백질 서열이 포함되기도 한다. 이러한 데이터는 매우 근접하게 연관된 유기체(생물체)의 상동 서열 분석 후 명확한 근거 기반의 수동 검토 후 Proteomes 데이터베이스에 포함된다. UniProt Proteomes의 curation(큐레이션) 상태는 UniProt 단백질체에는 수동으로 검토된 수동 주석 항목(UniProtKB/Swiss-Prot)과 자동 주석 항목(UniProtKB/TrEMBL)이 모두 포함되기도 하며, 검토된 주석 항목의 비율은 Proteome마다 다르며 집중적으로 선별되었거나 연구된 모델 유기체 단백질인 경우 품질이 우수하다. Saccharomyces cerevisiae 288C 및 대장균 균주(Ecoli-K12) 와 같은 일부 Proteomes은 완전히 큐레이션 된 상태로 구성된다.

참고문헌 #

Suggested Pages #

0.0.1_20231010_1_v71