혈청형 분류법
#
Find similar titles
- (rev. 4)
- Myunghee Jung
Structured data
- Category
- Biology
Table of Contents
개요 #
인플루엔자 바이러스는 지속적으로 돌연변이가 일어나 수많은 아종이 존재하게 되며, 바이러스의 전파양상을 연구하기 위해 각 바이러스의 특성을 쉽게 알 수 있게 해주는 별도의 명명법이 존재한다. ICTV(International Committee on Taxonomy of Viruses)는 이처럼 다양한 종류의 바이러스를 분류하고 바이러스를 연구하는 사람들이 공통적으로 사용하는 명명법을 관리하는 조직이다. ICTV에서 정한 인플루엔자 바이러스의 혈청형에 따른 분류 방법은 다음과 같은 규칙을 가진다.
Influenza A virus (A/Fujian/411/2002(H3N2))
보통 genbank에 등록된 인플루엔자 바이러스 서열은 위와 같은 description을 갖는다. 여기서 괄호 안의 내용이 혈청형 분류법에 따른 코드이며 슬러쉬(/)로 구분된 각 항목의 내용은 다음과 같다.
- Virus type : A, B, C로 구분되는 인플루엔자 바이러스의 type
- Host : 해당 바이러스의 숙주 (숙주가 human인 경우 생략)
- Geographic origin : 바이러스가 수집된 지역
- Strain number : 아종 번호
- Year of isolation : 바이러스를 수집한 연도
- Virus subtype : 슬러쉬(/)로 구분되지 않고 마지막 괄호 안에 따로 기록 되며, Hemaggultinin과 Neuraminidase의 subtype 번호와 함께 기록
인플루엔자 바이러스를 연구하는데 있어서 이러한 메타정보들을 분류하는 것이 중요한데 각 서열의 이름 부분(description)을 파싱하는 방법도 있지만 예외가 많아 어려움이 있다. NCBI에서는 인플루엔자 바이러스 데이터를 처리하는데 특화된 DB인 IVR(Influenza Virus resource)를 운영하고 있으며 여기서 공개되는 raw data(ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/)를 직접 다운로드 받아 이용하면 위의 메타정보들이 정리된 테이블도 바로 얻을 수 있다.
- influenza.fna : 인플루엔자 바이러스의 DNA 서열
- influenza_na.dat : influenza.fna에 있는 서열들의 메타정보 테이블
- influenza.faa : 인플루엔자 바이러스의 단백질 서열
- influenza_aa.dat : influenza.faa에 있는 서열들의 메타정보 테이블
기타 #
- ICTV 명명법의 Geographic origin은 국가 혹은 도시 단위까지 표기되어 국가별 분류가 어려울 수 있다. 이 경우 메타정보 테이블(.dat)의 country 필드를 이용할 수 있다.
- ICTV 명명법의 Host는 숙주 분류 단계의 구분이 불분명하다, 즉, avian의 경우 어떤 서열은 avian, 어떤 서열은 wild duck 또는 chicken 이라고 기록되어 있으며 이렇게 세분 할 수 있는 avian 숙주의 종류가 상당히 많다. 반면에 메타정보 테이블은 이들을 합쳐서 avian 이라고 분류 되어 있어서, 이 테이블을 이용하는편이 더 효율적인 경우가 있다.
- 메타정보 테이블(.dat)의 Date 필드는 연도만 있거나, 연도-월 만 있는 데이터가 상당수 존재한다. 일관적인 분석을 위해서는 연도의 데이터만 처리하게 하는 과정이 필요할 수 있다.
References
http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%94%8C%EB%A3%A8%EC%97%94%EC%9E%90
http://www.ictvonline.org/codeOfVirusClassification.asp