FASTA
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
Table of Contents
FASTA #
FASTA format은 생물 정보학 및 생화학에서 nucleotide sequence 또는 amino acid (protein) sequence를 나타내는 text-based format으로 nucleotide 또는 amino acids는 단일 문자 코드 (one-letter-code)를 사용하여 표현된다. 또한 sequence 내용 전에 ID와 description을 추가할 수 있으며, 이러한 FASTA 형식은 구성이 단순하여 text-processing tool과 R programming language, Python, Ruby, Perl과 같은 script language들을 사용하여 분석을 진행할 시 sequence들을 쉽게 다룰 수 있다.
Overview #
Sequence들은 일련의 행으로 표시가 되며, 각 줄은 120자를 넘지 않는 기준이지만 보통 80자를 초과하지 않는 것을 권장한다. FASTA file의 첫 번째 줄은 꺾쇠 (">")기호로 시작하고 그 뒤에 ID와 description을 입력한다.
아래의 예제 파일을 참고해보면 각각은 하나의 sequence만을 담은 FASTA 파일이지만, 이들을 함께 취하게 되면 여러 개의 sequence들을 담은 Multi-FASTA 파일이 되며, 꺾쇠 (">")기호로 여러 개의 sequence들이 구분된다. 또한 Gene bank의 sequence들은 두 개 이상의 ID 체계가 부여되는 경우가 있는데, 그 경우에는 바 (bar, "|")로 구분하여 보여준다.
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximu]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK
>gi|2695690|gb|AF036760.1| Rattus norvegicus BRCA1 mRNA, complete cds
CGCTGGTGCAACTCGAAGACCTATCTCCTTCCCGGGGGGGCTTCTCCGGCATTTAGGCCTCGGCGTTTGG
AAGTACGGAGGTTTTTCTCGGAAGAAAGTTCACTGGAAGTGGAAGAAATGGATTTATCTGCTGTTCGAAT
NCBI identifiers #
NCBI (National Center for Biotechnology Information)는 database에서 얻은 sequence에 해당 database record가 참조되어 레이블이 지정될 수 있도록 꺽쇠 (">")다음에 오는 header line 부분에 sequence ID에 사용되는 unique identifier에 대한 표준을 정의했다. sequence identifiers에 대한 NCBI FASTA 정의 형식은 다음과 같다.
Type | Format(s) | Example(s) |
---|---|---|
local (i.e. no database reference) | lcl | integer lcl |
GenInfo backbone seqid | bbs | integer |
GenInfo backbone moltype | bbm | integer |
GenInfo import ID | gim | integer |
GenBank | gb | accession |
EMBL | emb | accession |
PIR | pir | accession |
SWISS-PROT | sp | accession |
patent | pat | country |
pre-grant patent | pgp | country |
RefSeq | ref | accession |
general database reference (a reference to a database that's not in this list) |
gnl | database |
GenInfo integrated database | gi | integer |
DDBJ | dbj | accession |
PRF | prf | accession |
PDB | pdb | entry |
third-party GenBank | tpg | accession |
third-party EMBL | tpe | accession |
third-party DDBJ | tpd | accession |
TrEMBL | tr | accession |
Sequence representation #
Sequence는 다음을 제외하고 표준 IUB / IUPAC amino acid 및 nucleic acid로 표현된다.
- 소문자들을 대문자로 mapping.
- 단일 하이픈 (-)또는 대시 (/)를 사용하여 불확실한 길이의 gap을 나타냄.
- Amino acid seqeucne 경우, U와 * 문자를 사용할 수 있음.
- 알 수 없는 핵산 잔기의 경우 N 또는 알 수 없는 아미노산 잔기의 경우 X.
Nucleic Acid Code | Meaning | |
---|---|---|
A | Adenosine | |
C | Cytosine | |
G | Guanine | |
T | Thymine | |
U | Uracil | |
R | G or A (puRine) | |
Y | C, T or U (pYrimidines) | |
K | G, T or U (bases which are Ketones) | |
M | A or C (bases with aMino groups) | |
S | C or G (Strong interaction) | |
W | A, T or U (Weak interation) | |
B | C, G, T or U {not A (B comes after A)} | |
D | A, G, T or U {not C (D comes after C)} | |
H | A, C, T or U {not G (H comes after G)} | |
V | A, C or G {neither T nor U (V comes after U)} | |
N | A, C, G, T, U (Nucleic acid) | |
- | gap of indeterminate length |
지원되는 아미노산 코드 (22 개의 아미노산 및 3 개의 특수 코드)는 다음과 같다.
Nucleic Acid Code | Meaning |
---|---|
A | Alanine |
B | Aspartic acid (D) or Asparagine (N) |
C | Cysteine |
D | Aspartic acid |
E | Glutamic acid |
F | Phenylalanine |
G | Glycine |
H | Histidine |
I | Isoleucine |
J | Leucine (L) or Isoleucine (I) |
K | Lysine |
L | Leucine |
M | Methionine / Start codon |
N | Asparagine |
O | Pyrrolysine |
P | Proline |
Q | Glutamine |
R | Arginine |
S | Serine |
T | Threonine |
U | Selenocysteine |
V | Valine |
W | Tryptophan |
Y | Tyrosine |
Z | Glutamic acid (E) or Glutamine?(Q) |
X | any |
* | translation stop |
- | gap of indeterminate length |
Filename extension #
FASTA 형식의 sequence들을 포함하는 텍스트 파일의 표준 확장자명은 없으나, 각각의 확장자명과 의미하는 바는 다음과 같다.
Extension | Meaning | Notes |
---|---|---|
fasta | generic fasta | 일반적인 fasta 파일, 다른 FASTA 파일 확장자는 아래 나열되어 있음 |
fna | fasta nucleic acid | 핵산을 명시하기 위해 일반적으로 사용되는 확장자 |
ffn | FASTA nucleotide of gene regions | Genome의 coding 영역을 포함하는 확장자 |
faa | fasta amino acid | Amino acid sequence를 포함하는 확장자, Multi-protein fasta 파일은 더 구체적인 확장자인 mpfa를 갖음 |
frn | FASTA non-coding RNA | Genome에서 non-coding RNA 영역을 포함하는 확장자 (e.g. tRNA, rRNA) |
Reference #
- http://www.bioinformatics.nl/tools/crab_fasta.html
- https://zhanglab.ccmb.med.umich.edu/FASTA/
- https://en.wikipedia.org/wiki/FASTA_format
- https://earray.chem.agilent.com/earray/helppages/index.htm#fasta_format_files.htm
Incoming Links #
Related Data Sciences (DataScience 0) #
Related Articles (Article 1) #
Related Bioinformaticses (Bioinformatics 2) #
Suggested Pages #
- 0.144 Biopython/BLAST
- 0.090 Biopython/Bio.SeqRecord패키지
- 0.087 Biopython/SwissProt
- 0.085 Biopython/GFFparsing
- 0.075 Biopython/TRANSFAC
- 0.058 Biopython/Bio.AlignIO
- 0.045 Run.xml
- 0.040 Study.xml
- 0.039 Experiment.xml
- 0.037 CLC Genomics Workbench 8
- More suggestions...