NCBI
Datasets
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Introduction #
NCBI에서 제공하는 Datasets 프로그램을 이용하면 NCBI 데이터베이스를 손쉽게 원하는 포맷으로 다운로드할 수 있다.
NCBI Datasets website 및 RESTful API 및 Python package를 통해서도 이용 가능하며, 이 페이지에서는 command line을 이용한 활용법을 소개하고자 한다.
Install command line tools #
Download and install 페이지에서 리눅스, 맥, 윈도우 버전을 각각 다운로드 및 설치할 수 있다. 또 conda를 이용한 설치 방법도 제공하고 있다.
curl을 이용한 설치 방법은 다음과 같다.
<Linux>
* Download datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/datasets'
* Download dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/linux-amd64/dataformat'
* Make them executable: chmod +x datasets dataformat
<macOS>
* Download datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/datasets'
* Download dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/dataformat'
* Make them executable: chmod +x datasets dataformat
<Windows>
* Download datasets: curl -o datasets.exe "https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/win64/datasets.exe"
* Download dataformat: curl -o dataformat.exe "https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/win64/dataformat.exe"
Dataset 이용 예시 #
하늘소과(Cerambycidae)에 속하는 종들의 유전체 해독 현황을 조사하고자 할 때 다음과 같이 dataset을 이용하여 summary를 다운로드하고 dataformat 프로그램으로 원하는 정보를 추출할 수 있다.
./datasets download genome taxon "Cerambycidae" --dehydrated --filename Cerambycidae_datasets.zip
unzip Cerambycidae_datasets.zip -d ./Cerambycidae
unzip까지 수행 완료시 ./Cerambycidae/ncbi_dataset/data/assembly_data_report.jsonl 파일이 생성된다.
./dataformat excel genome --inputfile ./Cerambycidae/ncbi_dataset/data/assembly_data_report.jsonl --fields organism-name,assminfo-level,assmstats-total-sequence-len,assmstats-number-of-scaffolds,assmstats-scaffold-n50,assminfo-submission-date --outputfile Cerambycidae_summary.xlsx
결과 하늘소과에 속하는 종들의 유전체 통계 정보를 다음과 같이 확인할 수 있다.
Organism name | Assembly Level | Assembly Stats Total Sequence Length | Assembly Stats Number of Scaffolds | Assembly Stats Scaffold N50 | Assembly Submission Date |
---|---|---|---|---|---|
Anoplophora glabripennis | Scaffold | 706952781 | 9866 | 678234 | 2017-12-12 |
Rutpela maculata | Chromosome | 2022597459 | 192 | 185716378 | 2022-05-03 |
Rutpela maculata | Scaffold | 1667604102 | 17927 | 222882 | 2022-04-16 |
Anoplophora glabripennis | Scaffold | 706952781 | 9866 | 678234 | 2017-12-12 |
dataformat 이용시 아래 fields를 포함하여 다양한 정보들을 추가할 수 있다(링크 참고).
- assmstats-total-number-of-chromosomes : chromosome 개수
- assminfo-refseq-assm-accession,assminfo-genbank-assm-accession : accession ID
- assmstats-number-of-contigs,assmstats-contig-n50 : contig 개수 및 N50
- annotinfo-featcount-gene-protein-coding : protein-coding gene 개수
혹은 --fileds를 지정하지 않고 모든 정보 추출 후 엑셀에서 칼럼을 조정할 수도 있다.
또한 파일을 다운로드하려면 다음과 같이 입력하면 된다. 이때 ./Cerambycidae/ncbi_dataset/fetch.txt 파일에 입력된 파일들이 다운로드된다.
./datasets rehydrate --directory ./Cerambycidae/
Suggested Pages #
- 0.025 GenBank
- 0.025 Entrez
- 0.025 SNP
- 0.025 BLAST
- More suggestions...