CoNIFER
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
WES(Exome sequencing) 데이터로부터 CNV를 찾아내는 프로그램. CNV 탐지는 매핑된 리드(read)수를 기본으로 추정하게 되는데, 실험 배치간 생기는 엑솜 캡처(exome capture) 반응의 통계적 치우침(bias)를 줄이기 위해 특이값 분해(Singlar value decomposition, SVD)라는 행렬 분해 방법을 사용했다. 프로그램 관련된 상세 정보는 다음 URL을 참고한다. http://conifer.sourceforge.net
Table of Contents
요구사항 #
파이썬으로 만들어져 있으며, 2.7 이상의 버전을 이용할 수 있다 (파이썬3은 아직 지원하지 않음). 사용되는 라이브러리와 그 용도는 다음과 같다.
- NumPy: 행렬 계산
- PyTables: HDF5 데이터 구조를 이용한 임시 데이터 저장
- pysam: BAM 파일 파싱하여 RPKM(Reads per kilobase per million mapped reads)를 계산한다.
- matplotlib: CNV 추정한 영역의 상세한 그림 정보를 제공한다.
분석과정 #
시료의 BAM 파일들로 부터 RPKM 계산 #
매핑된 정보인 BAM 파일로 부터 특정 영역내의 리드수로 부터 RPKM 데이터를 생성한다. RPKM은 특정 영역내의 리드수를 전체 매핑된 리드수로 나눈 값으로 샘플간 정규화된 리드수이다. SAMtools의 파이썬 확장인 pysam 모듈을 이용하여 계산한다.
$ python conifer.py rpkm ...
SVD-ZRPKM 계산 #
RPKM 데이터를 정규화 (z-score)하여 ZRPKM을 계산하고, SVD 방법을 통해 SVD-ZRPKM을 계산한다.
$ python conifer.py analysis ...
ZRPKM과 SVD-ZRPKM의 차이는 다음 그림을 통해 알 수 있다.
(ZRPKM)
(SVD-ZRPKM)
CNV calling #
SVD-ZRPKM 수치값을 기반으로 해당 영역이 증폭(duplication)인지, 삭제(deletion)인지 추정한다.
$ python conifer.py call ...
CNV 영역 가시화 #
CNV calling 후에 영역별로 해당 영역을 CNV로 콜링한 세부 영역을 그림으로 출력한다.
$ python conifer.py plotcall ...