pVAC-Seq
#
Find similar titles
- 작성자
Structured data
- Category
- Software
Table of Contents
pVAC-Seq #
Motivation #
암 특이적인 대표적인 펩티드인 MHC class 1은 CD8+ T 셀에 의해 인식되는데 대부분 암환자에게서 나타난다. 종양을 억제하기 위한 T 셀은 보통 종양 체세포 돌연변이에 대해 인식하는데, 이 종양의 변이는 아미노산 하나를 바꿔서 translation하게 되며, 이를 "neoantigens"이라고 한다. 다시 말해서 netoantigens은 tumor-specific mutant peptides를 의미한다.
pVAC-Seq의 정의 #
pVAC-Seq(in silico automated pipeline for neoantigen prediction)으로 DNA와 RNA 서열 데이터를 이용하여 면역에 대한 개별적인 백신을 사용하기 위해 종양의 변이에 대하여 후보군이 되는 neoantigen 펩티드를 발견할 수 있게 하는 파이프라인이다.
pVAC-Seq의 Workflow #
다음 그림과 같이 pVAC-Seq 파이프라인은 4가지 단계로 구성되어 있다.
1. Prepare input data(입력 데이터 준비) #
pVAC-Seq을 수행하기 위해서는 다음과 같은 3가지 입력파일이 필요하다.
1. 체세포 변이호출프로그램에 의한 non-synonymous 변이 리스트(VCF)
2. 그 변이 리스트에 대한 아미노산 레벨에서의 변화 annotation과 전사체 서열(VEP)
3. 암환자에 대한 HLA(조직적합항원) haplotype(HLAminer)
1) variant calling을 통한 non-synonymous SNP에 대한 VCF 파일 생성
먼저 non-synonymous 한 변이를 호출하기 위해서는 전체 유전체 데이터(WGS) 혹은 엑솜 유전체 데이터(ES)에 대해 정렬과 변이 호출 등을 포함하는 GMS(Genome Modeling System)을 사용해야 한다. 일반적으로 BWA(ver 0.5.9)를 사용하여 정렬을 수행하고, Picard(ver 1.46)을 통해 duplication을 제거하여 전처리를 수행하고, 변이 호출에 대해서는 samtools mpileup(v0.1.16), somatic sniper(1.0.2), varscan somatic(2.2.6) 등의 프로그램을 이용하여 후보가 되는 변이 목록을 담고 있는 VCF 파일을 만든다. 프로그램을 이용한 변이 호출 옵션 및 방법은 다음 그림과 같다.
2) 변이 후보 리스트를 통한 각 아미노산 레벨에서의 변화의 중요도 확인을 위한 annotation(VEP)
이렇게 호출한 변이 후보에 대해서 아미노산 레벨에서의 annotation을 위해 VEP(Variant Effect Predictor) 프로그램을 사용하여 SIFT 혹은 Phylop 등과 같은 단백질에 영향을 미치는 변이에 대한 위험강도 정보를 수치를 이용하여 확인할 수 있다. 단, pVAC-seq 에서 input file로 사용되기 때문에 필수적으로 downstream, wildtype 옵션을 반드시 추가해주어야 한다.
3) 각 샘플에 대한 HLA allele prediction(HLAminer)
사람의 조직 적합성 복합체(Major Histocompatibility Complex, MHC) 유전자인 HLA 유전자, HLA 항원을 샘플에 가장 적합한 allele를 우선순위에 따라 예측한다. 미리 프로그램 상에서 지정해 놓은 HLA DB(HLA_ABC_GEN.fasta)를 backbone으로 샘플의 raw data를 어셈블리하고, 어셈블리된 contig들과 HLA DB간의 BLAST를 통해 가장 가까운 HLA allele를 예측한다.
2. Perform epitope prediction(항원결정부위 예측) #
pVAC-Seq 프로그램에서 가장 중요한 강점은 HLA class I molecule의 변이에 대한 친화도를 계산함으로서 항원결정부위를 예측한다는 점이다. HLA class I molecule에 바인딩하는 펩티드에 대한 친화도를 예측하기 위해서, 현재 프로그램에서는 NetMHC v.3.4를 제공하고 있다. 프로그램을 수행하면서 prediction algorithm으로 NetMHC 보다 NetMHCcons이 예측 결과가 더욱 정확한 것을 확인하였다.(참고논문 : NetMHCcons: a consensus method for the major histocompatibility complex class I predictions)
앞선 첫 번째 단계에서 호출된 변이를 기준으로 8~10bp의 flank region을 시퀀스 파일로 읽어들여서 암환자의 HLA class I의 haplotype과의 친밀도를 계산한다. 왜냐하면 일반적으로 HLA class I을 나타내는 antigenic 항원결정부위(epitopes)의 길이는 매우 다양하지만, 보편적으로 8~ 11bp의 amino acid를 가지고 있기 때문이다.
3. Integrate expression and coverage information(발현 데이터와의 결합) #
이 프로그램에서는 RNA 변이로서 발현된 예측 신생항원(eoantigens)에 대한 정확성을 위해 정상과 종양 조직 데이터세트에 대한 coverage, depth를 이용한 예측을 수행한다.
이를 위하여 RNA-Seq 데이터로부터 유전자 발현 데이터인 FPKM(Fragments per kilobase of exon per million reads mapped)를 이용한다. 이 논문에서는 Tuxedo protocol의 TopHat(v.2.0.8)과 Cufflink(v.2.0.2)를 사용하여 계산하였다.
unique한 백신 후보를 선택하기 위해서는 best 'quality'를 가진 변이를 타겟으로 하는 것이 가장 중요한데, 시퀀싱 depth 뿐만 아니라 VAF(variant allele)을 포함한 리드의 비율이 변이의 우선순위를 정하거나 필터링하는 기준으로 사용된다. 이러한 정보를 추가하기 위해서 bam-readcount라는 프로그램을 사용하였다.
이렇게 생성한 gene, isoform 에 대한 FPKM 값과 bam-readcount를 이용한 depth 값을 additional_input_file_list.yaml 파일에 위치 정보를 입력해준다면 pVAC-seq 프로그램이 자동으로 Expression 값과 coverage information을 프로그램 계산에 적용한다.
4. Filter neoepitope candidate(후보가 되는 항원결정부위 필터링) #
항체 펩티드를 생산하는 것은 백신의 개발과 신생 항원을 선택함에 있어 효율적인 면에서 매우 중요한 과정이다. 이에 예측된 binding 펩티드 리스트를 다음과 같은 두 가지 방법으로 필터링하여 좀 더 정확한 세트를 선택하게 된다.
1. Depth-based filtering
정상조직에서의 Coverage >= 5X, VAF <= 2%
종양조직에서의 cOVERAGE >= 10X, VAF >= 40%
2. Expressed-based filtering
FPKM > 1
output #
pVAC-Seq의 수행이 완료되면 다음과 같은 결과물을 얻을 수 있다.
1. epitope_output.combined.parsed.tsv
: 1차적으로 pVAC-seq 프로그램에서 출력하는 신생항원 후보에 대한 변이 목록
2. epitope_output.filtered.binding.tsv
: 위의 신생항원 후보에 대한 변이 목록 중 binding_filter 기능을 통해 얻은 변이 목록
3. epitope_output.final.tsv
: 최종적으로, expression data까지 고려한 coverage_filter 기능을 통해 얻은 신생항원 후보에 대한 변이 목록