Skip to content

NCBI Datasets #
Find similar titles

Structured data

Category
Software

Introduction #

NCBI에서 제공하는 Datasets 프로그램을 이용하면 NCBI 데이터베이스를 손쉽게 원하는 포맷으로 다운로드할 수 있다.

NCBI Datasets websiteRESTful APIPython package를 통해서도 이용 가능하며, 이 페이지에서는 command line을 이용한 활용법을 소개하고자 한다.

Install command line tools #

Download and install 페이지에서 리눅스, 맥, 윈도우 버전을 각각 다운로드 및 설치할 수 있다. 또 conda를 이용한 설치 방법도 제공하고 있다.

curl을 이용한 설치 방법은 다음과 같다.

<Linux>
* Download datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/linux-amd64/datasets'
* Download dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/linux-amd64/dataformat'
* Make them executable: chmod +x datasets dataformat


<macOS>
* Download datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/datasets'
* Download dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/dataformat'
* Make them executable: chmod +x datasets dataformat

<Windows>
* Download datasets: curl -o datasets.exe "https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/win64/datasets.exe"
* Download dataformat: curl -o dataformat.exe "https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/win64/dataformat.exe"

Dataset 이용 예시 #

하늘소과(Cerambycidae)에 속하는 종들의 유전체 해독 현황을 조사하고자 할 때 다음과 같이 dataset을 이용하여 summary를 다운로드하고 dataformat 프로그램으로 원하는 정보를 추출할 수 있다.

./datasets download genome taxon "Cerambycidae" --dehydrated --filename Cerambycidae_datasets.zip
unzip Cerambycidae_datasets.zip -d ./Cerambycidae

unzip까지 수행 완료시 ./Cerambycidae/ncbi_dataset/data/assembly_data_report.jsonl 파일이 생성된다.

./dataformat excel genome --inputfile ./Cerambycidae/ncbi_dataset/data/assembly_data_report.jsonl --fields organism-name,assminfo-level,assmstats-total-sequence-len,assmstats-number-of-scaffolds,assmstats-scaffold-n50,assminfo-submission-date --outputfile Cerambycidae_summary.xlsx

결과 하늘소과에 속하는 종들의 유전체 통계 정보를 다음과 같이 확인할 수 있다.

Organism name Assembly Level Assembly Stats Total Sequence Length Assembly Stats Number of Scaffolds Assembly Stats Scaffold N50 Assembly Submission Date
Anoplophora glabripennis Scaffold 706952781 9866 678234 2017-12-12
Rutpela maculata Chromosome 2022597459 192 185716378 2022-05-03
Rutpela maculata Scaffold 1667604102 17927 222882 2022-04-16
Anoplophora glabripennis Scaffold 706952781 9866 678234 2017-12-12

dataformat 이용시 아래 fields를 포함하여 다양한 정보들을 추가할 수 있다(링크 참고).

  1. assmstats-total-number-of-chromosomes : chromosome 개수
  2. assminfo-refseq-assm-accession,assminfo-genbank-assm-accession : accession ID
  3. assmstats-number-of-contigs,assmstats-contig-n50 : contig 개수 및 N50
  4. annotinfo-featcount-gene-protein-coding : protein-coding gene 개수

혹은 --fileds를 지정하지 않고 모든 정보 추출 후 엑셀에서 칼럼을 조정할 수도 있다.

또한 파일을 다운로드하려면 다음과 같이 입력하면 된다. 이때 ./Cerambycidae/ncbi_dataset/fetch.txt 파일에 입력된 파일들이 다운로드된다.

./datasets rehydrate --directory ./Cerambycidae/

Suggested Pages #

0.0.1_20210630_7_v33