Skip to content

NCBI RefSeq #

Find similar titles

6회 업데이트 됨.

Edit
  • 작성자
    cloudgo

You are seeing an old version of the page. Go to latest version

Structured data

Category
Database

RefSeq #

NCBI의 참조서열 데이터베이스(RefSeq, NCBI Reference Sequence Database)는 자연적으로 발생하는 DNA , RNA 및 단백질 서열을 위한 공공 데이터베이스이다. 유전체에서 전사체 및 단백질 데이터에 이르기까지 개체 단위로 고유 레코드로 연결된 대규모 다중 종 선별을 위한 염기서열 데이터베이스를 제공한다.

Image

<그림1. NCBI RefSeq 메인화면>

RefSeq은 각각의 종에 대해 중복되지 않는다면, 광범위하게 데이터들로 연결한 대량의 주석정보가 포함된 핵산 및 단백질 기록의 완전한 세트를 제공하는 것을 목표로 한다. 그러므로 분류학적으로는 다양하고, 중복되지 않는다면 다양한 데이터 서열이 가능하다.

데이터 수집은 INSDC ( NCBI의 GenBank , European Nucleotide Archive [ENA] 및 일본의 DNA 데이터 뱅크 [ DDBJ])을 통하여 이루어지며, 공개 서열 데이터의 적용 범위와 마무리는 유기체마다 다르므로 일부 상황에서는 완성이 아닌 중간단계의 유전체 기록을 제공하기도 한다.

RefSeq는 GenBank 데이터베이스와 유사하지만 크게 다른 점이 있다. 이는 연구를 수행하는 개인이나 그룹의 정보를 데이터베이스에 추가할 수 있다는 것이다. 즉, GenBank에 투고한 연구자의 서열 및 관련 정보를 다른 연구자에 의해 수정할 수 없지만, RefSeq는 관련 연구를 수행하는 연구자 및 그룹에 의해 관련 정보를 추가할 수 있어 더욱 정보가 다양하고 품질이 좀 더 높다.

또한 RefSeq은 일련의 규칙 및 표준을 통해 염기서열, 유전정보, 표현형 및 기능 정보를 포함한 다양한 데이터 유형의 표준 및 기준을 설정하여 하나의 프레임워크로 제공한다.

RefSeq 고유식별 번호와 데이터 타입 #

AP, XP에서 사용하는 "P"의 의미는 아미노산 수준의 데이터로 단백질 서열 데이터를 의미하며, NC, NT 등의 "N"은 유전체 수준(주로 Nucleotide)의 염기 서열 데이터를 의미한다. 또한 같은 수준의 데이터도 assembly 수준에 따라 세분화하는데, AC, NC는 chromosome 레벨의 assembly를 의미하며, NT와 NW는 scaffolds 레벨의 assembly이며, NZ는 미생물과 같은 완벽한 유전체(complete genome)임을 의미한다.

Image

<그림2. RefSeq 식별번호별 데이터 종류 정의>

Image

<그림3. RefSeq 접두사 세분화 정의>

RefSeq 데이터 구성 #

RefSeq(Reference Sequence)은 데이터의 특성에 따라 다양하게 제공하고 있으며, 각 데이터 마다 정의된 정보는 다르다.

Image

<그림3. RefSeq 데이터 구성 예시>

참고문헌 #

0.0.1_20240318_1_v95