Skip to content

CAFE #

Find similar titles

2회 업데이트 됨.

Edit

Structured data

Category
Software

Introduction #

CAFE (Computational Analysis of gene Family Evolution) 프로그램은 계통학적 근거 (tree 정보)를 토대로 gene family의 변화를 추론하는 프로그램으로 유전자별 각 종과 조상의 획득(Gain)과 손실 (Loss) 정보를 제공한다 (CAFE v3.0 메뉴얼 참고). 즉 현재 종들이 가지고 있는 유전자의 개수를 토대로 조상의 유전자 개수를 추론 (계통수 근거)하여 조상 대비 획득 (gain)인지, 손실 (loss)인지를 확인하는 것이다.

Installation #

현재 (2019년 7월) 최신버전은 v4.2.1이고 프로그램은 링크에서 다운로드할 수 있다. CAFE-4.2.1.tar.gz 파일을 다운로드 후 컴파일을 수행한다.

$ wget https://github.com/hahnlab/CAFE/releases/download/v4.2.1/CAFE-4.2.1.tar.gz
$ tar xvfz CAFE-4.2.1.tar.gz
$ CD [the appropriate directory]
$ ./configure
$ make

Usage #

기본적인 cafe 실행 방법은 다음과 같다.

#!cafe
#version
#date
load -i data/example2.tab -t 10 -l logfile.txt -p 0.05
tree (((chimp:6,human:6):81,(mouse:17,rat:17):70):6,dog:93)
lambda -s -t (((1,1)1,(2,2)2)2,2)
report resultfile

Input #

분석을 위해서는 계통수 정보, gene family 정보가 필요하다.

  1. 계통수 : 일반적으로 유전체 분석에서 유전자 정보를 토대로 phylogenetic tree를 구축하는 경우는 phylogram으로 불리며 이때 branch length는 substitution rate을 의미한다. CAFE에서는 ultrametric, 즉 divergence time 수준의 tree 정보를 필요로 하므로 BEAST와 같은 프로그램을 이용하여 직접 계산하거나 r8s 등의 프로그램으로 phylogram을 ultrametric으로 변환할 수 있다.
  2. gene family : 종별/유전자별 개수의 matrix로써 단백질 서열간 BALST 및 MCL 프로그램을 이용한 클러스터링을 통해 생성할 수 있다.

Output #

CAFE 실행시 .cafe라는 결과 파일이 생성되고 이를 cafetutorial_report_analysis.py로 변환하면 다음과 같은 결과 파일들을 얻을 수 있다.

  1. [output]_fams.txt : expansion / contraction 결과 제공 (아래 예시 참고)

    speciesA<34>:    4[+1],13[+8*],27[+1],34[+5*],49[+3],64[+1],69[-1],...
    
    * <34> : node 번호
    * 13[+8*] : family ID 13을 갖는 유전자가 상위 노드 (ancestor) 대비 8개 expansion (gain) 되었음 (* 표시는 rapid를 의미)
    * 69[-1] : 69번 유전자는 1개 contraction (loss) 되었음
    
  2. [output]_anc.txt : ancester (추론 결과)를 포함한 종별 gene count matrix

  3. [output]_node.txt : node (입력 종, ancestor)별 expansion, contractions 등 통계 제공
  4. [output]_put.txt : 종별 통계 제공 (아래 예시 참고)

    Species Expanded fams Genes gained genes/expansion Contracted fams Genes lost genes/contraction No change Avg. Expansion
    speciesA 45(13) 368 8.18 143(8) 287 2.01 159 3889
    * 괄호는 rapid를 의미
    

Notice #

  1. 박테리아의 strain 별 분석과 같이 Branch length가 1 미만인 경우에는 분석이 불가하다.

Reference #

  1. Han, M. V., Thomas, G. W. C., Lugo-Martinez, J., and Hahn, M. W. Estimating gene gain and loss rates in the presence of error in genome assembly and annotation using CAFE 3. Molecular Biology and Evolution 30, 8 (2013)
  2. Hahn, M. W., Demuth, J. P., and Han, S. -G. Accelerated rate of gene gain and loss in primates. Genetics 177, (2007)
  3. De Bie, T., Cristianini, N., Demuth, J. P., and Hahn, M. W. CAFE: a computational tool for the study of gene family evolution. Bioinformatics 22, (2006)
  4. Hahn, M. W., DeBie, T., Stajich, J. E., Nguyen, C., and Cristianini, N. Estimating the tempo and mode of gene family from comparative genomic data. Genomic Research 15, 8 (2005)

Suggested Pages #

0.0.1_20230725_7_v68