pVAC-Seq
#
Find similar titles
- 작성자
Structured data
- Category
- Software
Table of Contents
pVAC-Seq #
Motivation #
인간 게놈 프로젝트가 진행되고, 유전체의 유전정보를 대규모로 분석할 수 있게 되면서 암 환자 개인의 유전정보를 바탕으로 '맞춤형 암백신'을 제작하려는 시도가 계속되고 있다. 특정 개인이 가진 종양세포의 항원을 탐지, 발견해서 면역체계를 활성화시키는 백신을 제작하는 것이다. 종양세포에서만 발현되는 항원을 인지한 몸 속의 면역세포들이 암세포만 공격함으로써 종양만 제거하고 일반 정상세포와 장기들을 지킬수 있도록 하는 것이다.
면역의 가장 기본은 외인성 또는 애인성 유발 이물질에 대한 식별력을 바탕으로 한다. 외부에서 발생한 병소는 저마다 특유의 분자적 특징을 가지고 있어 숙주가 인식하고 면역반응을 활성화하지만, 암세포는 분자적 특징이 잘 발현되지 않기 때문에 면역체계가 이를 일반세포와 구별해서 인식하는데에 어려움이 있다.
Neoantigen(신항원) #
우리 몸의 T세포는 암세포가 발현하는 암 항원을 통해 종양세포를 인식한다. 암세포에 발현하는 항원은 종양연관항원(Tumor-associated antigen; TAA)와 종양 특이적 항원(Tumor-specific antigen;TSA)으로 분류할 수 있다.
종양연관항원(TAA)는 정상 세포보다 암세포에서 많이 나타나거나 정상세포와 다른 분화단계에서 나타나는 항원을 말하고, 종양 특이적 항원(TSA)는 암세포에서만 특이적으로 존재하는 항원이다. 이 항원은 단백질 서열에 영향을 주는 DNA 부분의 변이(mutation)나 잠재적 유전자의 활성 등으로 인해 새로운 항원을 생성하는 데 이를 신항원(neoantigen)이라고 한다.
pVAC-Seq의 정의 #
pVAC-Seq(in silico automated pipeline for neoantigen prediction)으로 DNA와 RNA 서열 데이터를 이용하여 면역에 대한 개별적인 백신을 사용하기 위해 종양의 변이에 대하여 후보군이 되는 neoantigen 펩티드를 발견할 수 있게 하는 파이프라인이다.
pVAC-Seq의 Workflow #
다음 그림과 같이 pVAC-Seq 파이프라인은 4가지 단계로 구성되어 있다.
1. Prepare input data(입력 데이터 준비) #
pVAC-Seq을 수행하기 위해서는 다음과 같은 3가지 입력파일이 필요하다.
1. 체세포 변이호출프로그램에 의한 non-synonymous 변이 리스트(VCF)
2. 그 변이 리스트에 대한 아미노산 레벨에서의 변화 annotation(VEP)
3. 암환자에 대한 HLA(조직적합항원) haplotype(HLAminer)
1) variant calling을 통한 non-synonymous SNP에 대한 VCF 파일 생성
먼저 non-synonymous 한 변이를 호출하기 위해서는 전체 유전체 데이터(WGS) 혹은 엑솜 유전체 데이터(ES)에 대해 정렬과 변이 호출 등을 포함하는 GMS(Genome Modeling System)을 사용해야 한다. 일반적으로 BWA(ver 0.5.9)를 사용하여 정렬을 수행하고, Picard(ver 1.46)을 통해 duplication을 제거하여 전처리를 수행하고, 변이 호출에 대해서는 samtools mpileup(v0.1.16), somatic sniper(1.0.2), varscan somatic(2.2.6) 등의 프로그램을 이용하여 후보가 되는 변이 목록을 담고 있는 VCF 파일을 만든다. 프로그램을 이용한 변이 호출 옵션 및 방법은 다음 그림과 같다.
2) 변이 후보 리스트를 통한 각 아미노산 레벨에서의 변화의 중요도 확인을 위한 annotation(VEP)
이렇게 호출한 변이 후보에 대해서 아미노산 레벨에서의 annotation을 위해 VEP(Variant Effect Predictor) 프로그램을 사용하여 SIFT 혹은 Phylop 등과 같은 단백질에 영향을 미치는 변이에 대한 위험강도 정보를 수치를 이용하여 확인할 수 있다. 단, pVAC-seq 에서 input file로 사용되기 때문에 필수적으로 downstream, wildtype 옵션을 반드시 추가해주어야 한다.
3) 각 샘플에 대한 HLA allele prediction(HLAminer)
사람의 조직 적합성 복합체(Major Histocompatibility Complex, MHC) 유전자인 HLA 유전자, HLA 항원을 샘플에 가장 적합한 allele를 우선순위에 따라 예측한다. 미리 프로그램 상에서 지정해 놓은 IMGT/HLA DB(HLA_ABC_GEN.fasta)를 backbone으로 샘플의 raw data를 어셈블리하고, 어셈블리된 contig들과 HLA DB간의 BLAST를 통해 가장 가까운 HLA allele를 예측한다.
2. Perform epitope prediction(항원결정부위 예측) #
pVAC-Seq 프로그램에서 가장 중요한 강점은 HLA class I molecule의 변이에 대한 친화도를 계산함으로서 항원결정부위를 예측한다는 점이다. HLA class I molecule에 바인딩하는 펩티드에 대한 친화도를 예측하기 위해서, 현재 프로그램에서는 NetMHC v.3.4를 제공하고 있다. 프로그램을 수행하면서 prediction algorithm으로 NetMHC 보다 NetMHCcons이 예측 결과가 더욱 정확한 것을 확인하였다.(참고논문 : NetMHCcons: a consensus method for the major histocompatibility complex class I predictions)
앞선 첫 번째 단계에서 호출된 변이를 기준으로 8~10bp의 flank region을 시퀀스 파일로 읽어들여서 암환자의 HLA class I의 haplotype과의 친밀도를 계산한다. 왜냐하면 일반적으로 HLA class I을 나타내는 antigenic 항원결정부위(epitopes)의 길이는 매우 다양하지만, 보편적으로 8~11bp의 amino acid를 가지고 있기 때문이다.
3. Integrate expression and coverage information(발현 데이터와의 결합) #
이 프로그램에서는 RNA 변이로서 발현된 예측 신생항원(neoantigens)에 대한 정확성을 위해 정상과 종양 조직 데이터세트에 대한 coverage, depth를 이용한 예측을 수행한다.
이를 위하여 RNA-Seq 데이터로부터 유전자 발현 데이터인 FPKM(Fragments per kilobase of exon per million reads mapped)를 이용한다. 이 논문에서는 Tuxedo protocol의 TopHat(v.2.0.8)과 Cufflink(v.2.0.2)를 사용하여 계산하였다.
unique한 백신 후보를 선택하기 위해서는 best 'quality'를 가진 변이를 타겟으로 하는 것이 가장 중요한데, 시퀀싱 depth 뿐만 아니라 VAF(variant allele)을 포함한 리드의 비율이 변이의 우선순위를 정하거나 필터링하는 기준으로 사용된다. 이러한 정보를 추가하기 위해서 bam-readcount라는 프로그램을 사용하였다.
이렇게 생성한 gene, isoform에 대한 FPKM 값과 bam-readcount를 이용한 depth 값을 additional_input_file_list.yaml 파일에 위치 정보를 입력해준다면 pVAC-seq 프로그램이 자동으로 expression 값과 coverage information을 프로그램 계산에 적용한다.
4. Filter neoepitope candidate(후보가 되는 항원결정부위 필터링) #
항체 펩티드를 생산하는 것은 백신의 개발과 신생 항원을 선택함에 있어 효율적인 면에서 매우 중요한 과정이다. 이에 예측된 binding 펩티드 리스트를 다음과 같은 두 가지 방법으로 필터링하여 좀 더 정확한 세트를 선택하게 된다.
1. Depth-based filtering
정상조직에서의 Coverage >= 5X, VAF <= 2%
종양조직에서의 Coverage >= 10X, VAF >= 40%
2. Expressed-based filtering
FPKM > 1 ( to eliminate noise)
output #
pVAC-Seq의 수행이 완료되면 다음과 같은 결과물을 얻을 수 있다.
1. epitope_output.combined.parsed.tsv
: 1차적으로 pVAC-seq 프로그램에서 출력하는 신생항원 후보에 대한 변이 목록
2. epitope_output.filtered.binding.tsv
: 위의 신생항원 후보에 대한 변이 목록 중 binding_filter 기능을 통해 얻은 변이 목록
3. epitope_output.final.tsv
: 최종적으로, expression data까지 고려한 coverage_filter 기능을 통해 얻은 신생항원 후보에 대한 변이 목록
참조 #
정밀의료+NGS 통한 '맞춤형 암백신', 어디까지 왔나?
http://www.biospectator.com/view/news_view.php?varAtcId=2500
Double or nothing on cancer immunotherapy
http://www.nature.com/nbt/journal/v31/n1/full/nbt.2471.html
pVAC-seq
http://pvac-seq.readthedocs.io/en/latest/index.html