GTF
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Biology
Table of Contents
개요 #
GTF의 풀네임은 Gene Transfer Format이다. GFF와 같은 데이터 형식이다. 그러면 사람들은 말할것이다. "왜 GFF를 사용하면 되지 GTF포멧을 사용하여 혼란을 주나요?" 라고 물을 수 있다. 답은 GFF형식은 모든 유전체 요소에 대한 Annotation 정보를 저장하는 반면 GTF파일은 유전자에 한해 사용이 된다.
파일 형식 #
한 라인에 총 9개의 정보를 담고 있다.
<seqname> <source> <feature> <start> <end> <score> <strand> <frame> [attributes] [comments]
아래는 GTF파일의 예제이다.
381 Twinscan CDS 380 401 . + 0 gene_id "001"; transcript_id "001.1";
381 Twinscan CDS 501 650 . + 2 gene_id "001"; transcript_id "001.1";
381 Twinscan CDS 700 707 . + 2 gene_id "001"; transcript_id "001.1";
381 Twinscan start_codon 380 382 . + 0 gene_id "001"; transcript_id "001.1";
381 Twinscan stop_codon 708 710 . + 0 gene_id "001"; transcript_id "001.1";
GFF vs GTF 차이 #
두 파일형식의 데이터형식내 속성은 같으나 사용법이 약간 다르다. 다른점은 아래와 같다.
- feature
CDS, start_codon, end_codon만 허락되며 옵션널하게 5UTR, 3UTR, inter, inter_CNS, intron_CNS, exon을 사용할 수 있다.
- attributes
GTF는 tag/vlaue를 스페이스로 분리한다. 무조건 attribute는 시작은 gene_id와 transcript_id로 시작하며 끝은 세미콜론으로 끝난다. 또한 텍스트값은 따옴표("text")안에 있어야한다.
자세한 사항은 GFF_and_GTF 페이지에서 확인할 수 있다.