Skip to content

pVAC-Seq #
Find similar titles

You are seeing an old version of the page. Go to latest version

Structured data

Category
Software

pVAC-Seq #

Motivation #

암 특이적인 대표적인 펩티드인 MHC class 1은 CD8+ T 셀에 의해 인식되는데 대부분 암 환자에게서 나타난다. 종양을 억제하기 위한 T 셀은 보통 종양 체세포 돌연변이에 대해 인식하는데, 이 종양 변이는 아미노산 하나를 바꿔서 translation하게 되는데, 이를 "neoantigens"이라고 한다. 다시 말해서 netoantigens은 tumor-specific mutant peptides를 의미한다.

pVAC-Seq의 정의 #

pVAC-Seq(in silico automated pipeline for neoantigen prediction)으로 DNA와 RNA 서열 데이터를 이용하여 면역에 대한 개별적인 백신을 사용하기 위해 종양의 변이에 대하여 후보군이 되는 neoantigen 펩티드를 발견할 수 있게 하는 파이프라인이다.

pVAC-Seq의 Workflow #

다음 그림과 같이 pVAC-Seq 파이프라인은 4가지 단계로 구성되어 있다.

Image

1. Prepare input data(입력 데이터 준비) #

pVAC-Seq을 수행하기 위해서는 다음과 같은 3가지 입력파일이 필요하다.

1. 체세포 변이호출프로그램에 의한 non-synonymous 변이 리스트(VCF)
2. 그 변이 리스트에 대한 아미노산 레벨에서의 변화 annotation과 전사체 서열(VEP)
3. 암 환자에 대한 HLA(조직적합항원) haplotype(HLAminer)

먼저 non-synonymous 한 변이를 호출하기 위해서는 전체 유전체 데이터(WGS) 혹은 엑솜 유전체 데이터(ES)에 대해 정렬과 변이 호출 등을 포함하는 GMS(Genome Modeling System)을 사용해야 한다. 일반적으로 BWA(ver 0.5.9)를 사용하여 정렬을 수행하고, Picard(ver 1.46)을 통해 duplication을 제거하여 전처리를 수행하고, 변이 호출에 대해서는 samtools mpileup(v0.1.16), somatic sniper(1.0.2), varscan somatic(2.2.6) 등을 논문에서는 추천하고 있다.

이렇게 호출한 변이에 대해서 아미노산 레벨에서의 annotation을 위해 VEP(Variant Effect Predictor) 프로그램을 사용하여 dbSNP, 1000 Genome DB의 변이정보를 추가할 수 있다.

마지막 입력값인 HLA haplotype은 in silico 한 방법으로 HLA typing 의 대표적인 프로그램인 HLAminer(ver 1)이나 Athlates를 통해 생성할 수 있다.

2. Perform epitope prediction(항원결정부위 예측) #

pVAC-Seq 프로그램에서 가장 중요한 강점은 HLA class I molecule에 대한 변이에 대한 친화도를 계산함으로서 항원결정부위를 예측한다는 점이다. HLA class I molecule에 바인딩하는 펩티드에 대한 친화도를 예측하기 위해서, 현재 프로그램에서는 NetMHC v.3.4를 제공하고 있다.

앞선 첫 번째 단계에서 호출된 변이를 기준으로 8~10bp의 flank region을 시퀀스 파일로 읽어들여서 암 환자의 HLA class I의 haplotype과의 친밀도를 계산한다. 왜냐하면 일반적으로 HLA class I을 나타내는 antigenic 항원결정부위(epitopes)의 길이는 매우 다양하지만, 보편적으로 8~ 11bp의 amino acid를 가지고 있기 때문이다.

3. Integrate expression and coverage information(발현 데이터와의 결합) #

이 프로그램에서는 RNA 변이로서 발현된 예측 신생항원(eoantigens)에 대한 정확성을 위해 정상과 종양 조직 데이터세트에 대한 coverage, depth를 이용한 예측을 수행한다.

이를 위하여 RNA-Seq 데이터로부터 유전자 발현 데이터인 FPKM(Fragments per kilobase of exon per million reads mapped)를 이용한다. 이 논문에서는 Tuxedo protocol의 TopHat(v.2.0.8)과 Cufflink(v.2.0.2)를 사용하여 계산하였다.

unique한 백신 후보를 선택하기 위해서는 best 'quality'를 가진 변이를 타겟으로 하는 것이 가장 중요한데, 시퀀싱 뎁스 뿐만 아니라 VAF(variant allele)을 포함한 리드의 비율이 변이의 우선순위를 정하거나 필터링하는 기준으로 사용된다. 이러한 정보를 추가하기 위해서 bam-readcount라는 프로그램을 사용하였다.

4. Filter neoepitope candidate(후보가 되는 항원결정부위 필터링) #

항체 펩티드를 생산하는 것은 백신의 개발과 신생 항원을 선택함에 있어 효율적인 면에서 매우 중요한 과정이다. 이에 예측된 binding 펩티드 리스트를 다음과 같은 두 가지 방법으로 필터링하여 좀 더 정확한 세트를 선택하게 된다.

1. Depth-based filtering
정상조직에서의 Coverage >= 5X, VAF <= 2%
종양조직에서의 cOVERAGE >= 10X, VAF >= 40%

2. Expressed-based filtering
FPKM > 1
0.0.1_20210630_7_v33