Skip to content

Interpretation DB - Polyphen, SIFT, InterVar #

Find similar titles

4회 업데이트 됨.

Edit
  • 최초 작성자
    Jeong-han Seo
  • 최근 업데이트
    테라

Structured data

Category
Database

개요 #

게놈 데이터베이스(GDB)는 유전체에 존재하는 유전변이 정보들을 수집하고, 데이터베이스화함으로써, 유전체 맞춤의학 연구를 위한 기반을 다져왔다. 이와 관련하여 Interpretation DB 중, Poyphen, SIFT, InterVar에 대해서 알아보자.

PolyPhen-2 #

SNP/mutation 데이터베이스로써, PolyPhen-2 (Polymorphism Phenotyping v2)는 직접적인 물리적 및 비교 고려 사항을 사용하여 인간 단백질의 구조와 기능에 대한 아미노산 치환의 영향을 예측하는 도구이다.

주요 특징 #

PolyPhen-2는 Nonsynonymous SNP (nsSNP)의 기능적 영향 예측하는 코딩에 주석을 달기 위한 PolyPhen 도구의 새로운 개발으로 다음과 같은 특징이 있다.

  1. 고품질 다중 서열 정렬 파이프라인
  2. 기계 학습 방법에 기반을 둔 확률 분류
  3. 차세대 시퀀싱 데이터의 높은 처리량 분석을 위한 최적화

Overview #

인간의 유전적 변이의 대부분은 SNPs (Single-Nucleotide Polymorphisms)에 의해 표현되며, 이들 중 다수는 인간 개체 간에 표현형 차이를 유발한다고 알려져 있다. 우리는 구체적으로 Nonsynonymous SNP (nsSNP), 즉 코딩 영역에 위치한 SNP에 초점을 맞추어 유전자의 단백질 생성물에 아미노산 변화를 초래한다. 여러 연구에서 아미노산 대립 유전자 변이체가 단백질 구조 / 기능에 미치는 영향이 다중 서열 정렬 및 단백질 3D 구조의 분석을 통해 신뢰성 있게 예측될 수 있음이 나타났다. 초기 연구에서 증명했듯이, 이러한 예측은 희귀 대립 유전자의 과잉으로 간주하는 자연 선택의 영향과 관련이 있다. 따라서 분자 수준의 예측은 실제 표현형에 영향을 미치는 SNP를 나타낸다. PolyPhen-2는 아미노산 치환이 인간 단백질의 구조와 기능에 미치는 영향을 예측하기 위한 도구로써, 이 예측은 치환을 특징짓는 서열, 계통 발생 및 구조 정보를 포함하는 다수의 특징에 기초한다. 단백질에서 주어진 아미노산 치환을 위해, PolyPhen-2는 치환 부위의 다양한 서열 및 구조 기반 특징을 추출하여 확률 분류기에 공급한다.

Sequence-based features #

치환은 특정 부위, 예를 들어, 활성 또는 결합 또는 비 구형 (trans-membrane) 영역에서 발생할 수 있다. PolyPhen-2는 질의 단백질을 UniProtKB / Swiss-Prot 데이터베이스의 인간 단백질 하위 세트의 항목으로 식별하고 해당 항목의 기능 표 (FT) 부분을 사용한다. 또한, 아미노산 대체가 다음과 같은 주석이 있는 사이트에서 발생하는지 확인한다.

  • DISULFID, CROSSLNK bond or
  • BINDING, ACT_SITE, LIPID, METAL, SITE, MOD_RES, CARBOHYD, NON_STD 사이트

이 단계에서 PolyPhen-2는 쿼리 단백질에 주석이 달린 모든 위치를 BINDING, ACT_SITE, LIPID 및 METAL로 인식하고, 이후의 단계에서 공지된 3D 구조를 갖는 상동성 단백질에 대한 검색이 성공적이면 치환 부위가 이러한 중요한 단백질 기능 잔기와 공간적으로 접촉하는지를 확인한다.

PolyPhen-2는 또한 대체 사이트가 다음과 같이 주석이 달린 지역에 있는지 확인한다 :

  • TRANSMEM, INTRAMEM, COMPBIAS, REPEAT, COILED, SIGNAL, PROPEP

주석 또는 예측된 막 간 영역에서의 치환을 위해 PolyPhen-2는 PHS trans-membrane 특정 매트릭스 점수를 사용하여 nsSNP의 가능한 기능적 효과를 평가한다.

PSIC profile scores for two amino acid variants #

아미노산 치환은 homologous 단백질 군의 위치에서 관찰된 치환 스펙트럼과 양립 할 수 없다. PolyPhen-2는 UniRef100 데이터베이스에서 BLAST 검색을 통해 입력 서열의 homologues를 확인한다. BLAST hit 세트는 다음과 같은 히트를 보유하도록 필터링 된다.

  • 시퀀스 서열을 30-94% 범위의 입력 서열에 포함하고,
  • 75 잔기 이상의 길이의 질의 서열과의 정렬

서열 동일성은 전체 정렬 길이로 나눈 일치 수로 정의된다. 그 결과 다중 정렬은 프로필 매트릭스를 계산하기 위해 PSIC 소프트웨어 (위치별 독립 계수)에 의해 사용되고, 매트릭스의 요소 (profile score)는 특정 위치에서 발생하는 주어진 아미노산의 위치와 임의의 위치에서 발생하는 이 아미노산의 가능성 (배경 빈도)의 대수 비율이다.

PolyPhen-2는 polymoprphic 위치에 있는 두 대립 유전자 변이의 프로파일 점수 차이를 계산한다. 이 차이의 큰 양의 값은 연구된 대체물이 단백질 군에서 거의 또는 전혀 관찰되지 않는다는 것을 나타낼 수 있고 또한, 쿼리 위치에서 정렬된 시퀀스의 수를 보여준다. 이 수치는 프로필 점수 계산의 신뢰성을 평가하는 데 사용될 수 있다.

Structural features #

알려진 3D 구조에 대한 아미노산 대체의 매핑은 대체가 단백질의 소수성 코어, 정전기 상호 작용, 리간드와의 상호 작용 또는 단백질의 다른 중요한 특징을 파괴할 가능성이 있는지를 보여준다. query 단백질의 공간 구조가 알려지지 않은 경우, 알려진 구조의 homologous 단백질을 사용할 수 있다.

Mapping of the substitution site to known protein 3D structures #

PolyPhen-2 BLAST는 단백질 구조 데이터베이스 (PDB)에 대한 query 시퀀스를 제공하며 기본적으로 주어진 기준을 충족하는 모든 hit를 유지한다 :

  • 시퀀스 고유성 임계 값은 이 값이 기본 구조 특성의 보전을 보장하기 때문에 50%로 설정
  • 최소 히트 길이가 100으로 설정
  • 최대 간격은 20으로 설정

기본적으로 hitk는 해당 위치의 아미노산이 입력 시퀀스의 아미노산과 다른 경우 거부된다. 그런 다음 대체 위치가 유지된 모든 히트의 해당 위치에 대응된다. 히트는 query 단백질과의 서열 정렬의 서열 동일성 또는 E- 값에 따라 분류된다.

Contacts #

Residue의 특정 공간 접촉의 존재는 단백질 기능에 대한 그의 역할을 나타낼 수 있다. 출력에 표시되는 모든 contacts에 권장되는 기본 임계 값은 6Å이다. 그러나 의사 결정 규칙에는 3Å의 값이 사용된다. 두 원자 세트 사이의 접촉을 평가하기 위해 PolyPhen-2는 두 세트의 원자 사이에서 가능한 한 최소 거리를 찾는다. 기본적으로 알려진 구조로 검색된 모든 hits에 대한 contacts가 계산된다. 이것은 여러 PDB 항목이 하나의 단백질에 해당하지만 다른 거대 분자 및 리간드와 복합체에 대한 다른 정보를 전달하는 경우에 필수적이다.

PolyPhen-2는 가변 아미노산 잔기에 대한 3가지 유형의 접촉을 확인한다.

  1. Contacts with heteroatoms: 물을 제외한 모든 헤테로 원자 및 단백질의 생물학적 기능보다는 구조 결정 절차와 관련이 있다고 여겨지는 "비생물학적" 결정학적 리간드로 정의된 리간드와의 접촉

  2. Interchain contacts: 단백질 분자의 subunits 간의 상호 작용. 기술적으로 PDB 파일에 있는 다른 폴리펩타이드 사슬의 잔기가 있는 다형성 잔기의 접촉으로 정의

  3. Contacts with functional sites: PolyPhen-2가 분석한 세 번째 유형의 접촉은 단백질 기능 잔기 (BINDING, ACT_SITE, LIPID 및 METAL)에 대한 중요성이 있는 접촉으로 나타남. BINDING, ACT_SITE, LIPID 및 METAL은 시퀀스 주석에서 파생

Prediction #

PolyPhen-2는 기계 학습을 사용하여 훈련된 Naive Bayes 분류에 의해 개별 기능으로부터 대립 유전자 대체의 기능적 중요성을 예측한다. PolyPhen-2 예측 모델을 훈련하고 테스트하기 위해 두 쌍의 데이터 세트가 사용되었다. 첫 번째 쌍인 HumDiv는 손상되지 않을 것으로 추정되는 인간 단백질과 밀접한 관련이 있는 포유류 동족체 간의 차이점과 함께 UniProtKB 데이터베이스에 있는 인간 멘델의 질병을 일으키는 분자 기능에 대한 알려진 효과를 가진 모든 손상 대립 유전자로부터 수집되었다. 두 번째 쌍인 HumVar는 UniProtKB의 모든 인간 질병 유발 돌연변이와 병에 주석이 포함되지 않은 일반적인 인간 nsSNP (MAF> 1%)로 구성되었으며 손상되지 않은 것으로 취급되었다.

사용자는 HumDiv 및 HumVar에서 훈련된 PolyPhen-2 모델 중에서 선택할 수 있다. 멘델리안 질병의 진단은 풍부한 가벼운 대립 유전자를 포함하여 남아있는 모든 인간 변이의 과감한 효과를 가진 돌연변이를 구별할 것을 요구한다. 따라서 HumVar에서 훈련된 모델을 이 작업에 사용해야 한다. 대조적으로 HumDiv 훈련 모델은 복잡한 표현형에 잠재적으로 관여하는 희귀한 대립 유전자, 게놈 차원의 연관 연구로 확인된 영역의 조밀한 지도 작성 및 서열 데이터에서 자연 선택의 분석을 위해 사용되어야 하며, 대수롭지 않은 해로운 대립 유전자가 있어야만 손상된 것으로 취급된다.

돌연변이의 경우, PolyPhen-2는 Naive Bayes 사후 확률을 계산하여 이 돌연변이가 손상되고 위양성 비율 (FPR, 돌연변이가 실제로 손상이 아닌 경우 손상으로 분류될 확률) 및 실제 양성률 ( TPR, 돌연변이가 실제로 손상되면 손상된 것으로 분류되는 기회)의 추정치를 보고한다. 돌연변이는 각 모델 (예 : HumDiv 및 HumVar)에 대해 개별적으로 최적화된 가양성 (false positive rate) (FPR) 문턱 값 쌍에 따라 양성, 손상 가능성 또는 손상 가능성이 있는 것으로 질적으로 평가된다.

PolyPhen-2의 현재 버전 2.2는 HumDiv 모델의 경우 5% / 10% FPR을 사용하고 HumVar 모델의 경우 10% / 20% FPR을 사용하여, 이 세 가지 분류의 임계 값으로 사용한다. 첫 번째 (낮은) FPR 값 이하의 추정된 위양 양성율과 관련된 사후 확률 점수가 있는 돌연변이는 아마도 손상을 입힐 것으로 예측된다(보다 확신 있는 예측). 두 번째(높은) FPR 값 이하의 위양 양성율과 관련된 사후 확률을 가진 돌연변이는 아마도 손상을 입을 가능성이 있다(덜 확신 있는 예측). 두 번째 (높은) FPR 값보다 높은 추정 된 위양성 비율을 가진 돌연변이는 양성으로 분류된다.

데이터 부족으로 예측이 불가능한 경우 결과가 알려지지 않은 것으로 보고된다.

SIFT #

SIFT는 아미노산 치환이 단백질 기능에 영향을 미칠지 예측한다. SIFT 예측은 PSI-BLAST를 통해 수집된 밀접한 관련 서열로부터 유도된 서열 정렬에서 아미노산 잔기의 보존 정도에 기초한다. SIFT는 자연 발생 nonsynonymous polymorphisms이나 실험실 유도 missense mutation에 적용될 수 있다.

Human Genome DB Tool Description
SIFT/PROVEAN Human SNPs Get SIFT and PROVEAN predictions for SNPs and indels (Ensembl 66) (Sample format)
SIFT Human SNPs Get SIFT predictions for nonsynonymous SNPs (Ensembl 63) (Sample format)
Other human genome tools: Restrict to Coding Variants (Sample format) / Classify Human indels (Sample format)
SIFT Human Protein DB Tool Description (Ensembl 63)
SIFT Human Protein Get SIFT predictions for nonsynonymous AA substitutions (Ensembl ENSP ID)
SIFT dbSNP DB Tool Description (dbSNP Build 132)
SIFT dbSNP rs IDs Get SIFT predictions for dbSNP SNPs including non-human species (NCBI rs ID)
SIFT dbSNP Protein Get SIFT predictions for dbSNP proteins including non-human species (RefSeq ID or GI number)
SIFT Single Protein Tools Tool Description
SIFT BLink Run SIFT analysis on single protein using precomputed BLAST from NCBI BLink (RefSeq ID or GI number)
SIFT Sequence Run SIFT analysis on single protein through a PSI-BLAST search (fasta)
SIFT Related Sequences Run SIFT analysis on protein query and a group of related sequences (multi-fasta)
SIFT Aligned Sequences Run SIFT analysis on protein query already in multi-sequence alignments (MSA)
  • PROVEAN (Protein Variation Effect Analyzer)은 아미노산 치환 또는 indel이 단백질의 생물학적 기능에 미치는 영향을 예측하는 소프트웨어 도구

  • PROVEAN은 기능적으로 중요한 것으로 예측되는 비 동의어 또는 변형을 식별하기 위해 서열 변형을 필터링하는 데 유용

  • PROVEAN의 성능은 SIFT나 PolyPhen-2와 같은 보편적인 도구와 비슷

  • 쌍 단위 서열 정렬 점수를 얻기 위한 빠른 계산 방법은 인간과 마우스의 모든 단백질 서열의 모든 아미노산 위치에서 20번의 단일 AA 치환과 단일 AA 삭제에 대한 사전 계산된 PROVEAN 예측을 생성할 수 있게 함.

What does SIFT do? #

SIFT는 내성이 없는 아미노산 치환을 허용하지 않고 단백질의 아미노산 치환이 표현형 효과를 가지는지 아닌지를 예측하는 서열 상동성 기반 도구이다. SIFT는 단백질 진화가 단백질 기능과 상호 관련된다는 전제에 기반을 두고 있다. 중요하지 않은 위치는 배열에서 다양하게 보일 반면, 기능에 중요한 위치는 단백질 군의 정렬에서 보존되어야 한다.

What can SIFT do for me? #

돌연변이를 일으키고 싶은 단백질이 있다면 SIFT에 서열을 입력한다. 많은 치환을 허용하지 않는 영역은 점수 출력 파일에서 빨간색으로 강조 표시되며, 이 영역을 대상으로 변이를 지정할 수 있다. 단일 아미노산이 치환된 돌연변이 단백질을 가지고 있다면, SIFT는 기능 분석을 수행하기 전에 어떤 돌연변이가 표현형 효과가 있을지 예측할 것이다.

How does SIFT work? #

SIFT는 query 시퀀스를 취하고 query 시퀀스의 모든 위치에 대해 허용 및 유해 치환을 예측하기 위해 여러 정렬 정보를 사용한다. SIFT는 (1) 유사한 서열을 검색하고, (2) querr 서열과 유사한 기능을 공유할 수 있는 밀접한 관련 서열을 선택하고, (3) 선택된 서열의 정렬을 얻으며, (4) 다음과 같은 표준화된 확률을 계산한다. 모든 정렬에서 가능한 대체, 정규화된 확률이 0.05 미만인 위치는 해로운 것으로 예측되며, 0.05보다 크거나 같은 위치는 허용될 것으로 예측된다.

Input for SIFT #

단백질 서열 (느림) 또는 관련 서열 (빠른)과 관련된 query 서열 또는 관련 서열과 정렬된 query 서열 (더 빠른)을 입력할 수 있다.

Submitting a NCBI GI #

SIFT 예측을 얻기 위해 NCBI GI #id를 입력할 수 있다. 예측은 사전 계산 BLAST 검색을 기반으로 하며 1분 이내에 반환된다. 이것이 선호하는 방법의 하나이다. 특정 단백질 서열에 대한 NCBI GI 번호를 찾으려면 NCBI 단백질 데이터베이스로 이동하여 유전자 이름을 입력한다. 너무 많은 결과가 나오면 유기체를 지정하여 범위를 좁힐 수 있다. 예를 들어, 사람 MLH1 유전자를 찾으려면 NCBI 텍스트 상자에 "MLH1"[유전자]와 "호모 사피엔스"[조직]를 입력하면 인간에 제한된 유전자 목록이 반환된다.

Submitting a sequence #

FASTA 형식으로 단백질 서열을 제출할 수 있다. 전체 SIFT 절차가 실행되고 결과가 사용자에게 반송된다. 다만 이 방법은 느리다. 단백질에 대한 추가 정보가 있으면 결과를 훨씬 빨리 얻을 수 있다.

Submitting a group of related sequences #

Query 단백질과 관련된 단백질을 알고 있다면 시퀀스 및 관련 시퀀스를 제출하여 결과를 훨씬 빠르게 얻을 수 있다. SIFT 절차의 단계 (1) 과 (2) 는 건너뛴다. 관심 있는 단백질을 파일의 첫 번째 시퀀스로 FASTA 형식으로 제출하면 된다.

Submitting a multiple alignment #

관심 있는 단백질이 포함된 다중 정렬이 있는 경우 CLUSTAL, MSF 또는 FASTA 형식으로 정렬을 제출할 수 있다. 당신의 단백질은 첫 번째 정렬에 있어야 한다. 정렬의 길이는 query 단백질에 해당해야 하며, query 단백질 시퀀스에는 간격이 없어야 한다. SIFT 절차에서 (1) 단계부터 (3) 단계까지 건너뛰므로 SUPER-DUPER FAST 결과를 얻을 수 있다.

Submitting Substitutions #

SIFT는 사용자의 대체물이 점수에 따라 관용 또는 견딜 수 있는지에 대한 예측을 반환한다. 치환을 위한 형식은 X # Y를 가지며, 여기서 X는 원래 아미노산이고, #은 치환 위치이며, Y는 새로운 아미노산이다. 한 줄에 한 번씩 대체 할 수 있다.

예:  
M1Y
K3S
T4P

SIFT Output #

  • SIFT Predictions for Substitutions
Output Description
SIFT Score Ranges from 0 to 1. The amino acid substitution is predicted damaging is the score is <= 0.05, and tolerated if the score is > 0.05.
Median Info Ranges from 0 to 4.32, ideally the number would be between 2.75 and 3.5. This is used to measure the diversity of the sequences used for prediction. A warning will occur if this is greater than 3.25 because this indicates that the prediction was based on closely related sequences.
Seqs at Position This is the number of sequences that have an amino acid at the position of prediction. SIFT automatically chooses the sequence for you, but if the substitution is located at the beginning or end of the protein, there may be only a few sequences represented at that position, and this column indicates this.
  • Genome Tool Output 다음은 genomic variatns를 제출한 후, 반환되는 출력 예입니다.
Coordinates Codons Transcript ID Protein ID Substitution Region dbSNP ID SNP Type Prediction Score Median Info # Seqs at position User Comment
1,100624830,1,T/A ATA-tTA ENST00000342895 ENSP00000344470 I121L EXON CDS rs34920283:A Nonsynonymous TOLERATED 0.59 3.06 28
22,30163533,1,A/C GAG-GcG ENST00000330029 ENSP00000332887 E49A EXON CDS rs11554363:C Nonsynonymous DAMAGING 0.03 3.04 50
X,10085674,1,T/C GAT-GAc ENST00000380861 ENSP00000370242 D525D EXON CDS rs6530368:C Synonymous N/A N/A N/A N/A
21,19638426,1,T/G TTG-gTG ENST00000338326 ENSP00000339975 L223V EXON CDS novel Nonsynonymous DAMAGING *Warning! Low confidence. 0 4.32 2
2,230633386,1,G/A CAG-tAG ENST00000283943 ENSP00000283943 Q1910* EXON CDS rs1803846:A Nonsynonymous N/A N/A N/A N/A
2,230312220,1,G/A CCC-CtC ENST00000341772 ENSP00000345229 P433L EXON CDS rs17853365:A Nonsynonymous TOLERATED 0.11 3.02 160

첫 번째 column은 제출된 variant를 나타낸다. 대립 유전자가 - 가닥에 대해 제출되면 대립 유전자가 + 가닥으로 자동 변환된다. 변형을 올바르게 제출하지 않으면 기본적으로 synonymous로 변경된다. 두 번째 열은 변경된 코돈을 나타내며, 염기는 + mRNA orientation과 관련이 있다. dbSNP이 동일한 위치에서 겹치는 변형이 있으면 rs ID가 표시된다. 그러나 대립 유전자는 같지 않을 수도 있다.

  • Gene Annotation Error : 우리는 Ensembl 유전자 주석이 예상되는 Ensembl 단백질을 코딩하는지 확인한다. 예를 들어, Ensembl 유전자가 NCBI 참조 게놈의 3-56 위치에있는 경우, NCBI reference genome에서 해당 DNA 염기를 추출하여 번역한 다음 해당 Ensembl 단백질 시퀀스와 일치하는지 확인한다. Ensemble 유전자 어노테이션이 예상되는 단백질 서열에 대해서는 코딩 변이에 주석을 달지 않는다. NCBI36 단백질의 16%가 이 오류를 가지고 있었고, NCBI37의 7%가 이 오류를 가지고 있었다. 따라서, 이 오류가 발생하는 경우 NCBI37 coordinates (NCBI36을 NCBI37로 변환한 후)로 제출하는 것이 좋다. 이 오류가 계속 발생하면 직접 주석을 다는 것을 추천한다.

InterVar #

InterVar는 ACMG / AMP 2015 가이드라인에 의한 유전 변이의 임상적 해석을 위한 생물 정보학 소프트웨어 도구이다. InterVar에 대한 입력은 ANNOVAR에서 생성된 주석이 달린 파일이며, InterVar는 변이형을 '양성', '양성 가능성 높음', '불확실성 유의성', '가능성이 있는 병원성' 및 '병원성'으로 분류한다. 미국 유전학 및 유전체 학회(ACMG)와 분자 병리학 협회(AMP)는 2015년 28개 기준에 근거하여 인간 질병과 관련한 서열 변이의 임상적 해석에 대한 업데이트된 표준 및 지침을 발표했다. 그러나 개별 지침서의 이해가 다르거나 지침을 구현하기 위한 표준 알고리즘이 없기 때문에 개별 통역사 간의 다양성이 광범위할 수 있지만, 반자동화 변형 해석을 위한 계산 도구는 사용할 수 없다. 이러한 문제를 해결하기 위해 우리는 이러한 기준을 구현할 수 있는 방법 모음을 제안하고 사용자가 variant의 임상적 중요성을 해석할 수 있도록 InterVar라는 도구를 개발했다. InterVar는 사전 주석이 달린 파일이나 VCF 파일을 입력으로 받아 18가지 기준에 대한 자동 해석을 생성할 수 있다. 또한, 자동화된 해석 단계와 수동 조정 단계를 통해 사용자 친화적인 variant 해석을 가능하게 하는 웹 서버 wInterVar를 개발했다. 이러한 도구는 특히 높은 침투력을 가진 심각한 선천성 또는 매우 초기 발달 장애를 해결하는 데 유용하다. 이미 나와 있는 서열 연구 결과를 사용하여, 서열 variants의 임상적 중요성을 해석하는 데 걸리는 시간을 현저하게 줄이는 데 있어 InterVar의 유용성을 입증했다.

그림 1. InterVar의 2-step 절차에 대한 순서도

Image

그림 2. ACMG / AMP2015 가이드 라인의 28가지 기준

Image

그림 3. wInterVar의 그림. (A) 여러 가지 방법으로 입력할 수 있는 genentic variants의 자동 해석 (B) 사용자가 "Adjust"를 클릭하면 수동으로 조정하여 최종 결과를 도출할 수 있는 전체 기준 목록이 표시된다.

Image

WHAT DOES IT DO #

InterVar은 임상적 중요성의 다양한 해석을 위해 파이썬 스크립트로 구성되어 있다.

PREREQUISITE #

  • Python >=2.6.6.
  • ANNOVAR version >= 2016-02-01.
  • OMIM으로부터 mim2gene.txt와 같은 파일 다운로드
  • OMIM르오부터 should be generated: >= 2016-09, 최신버전이 아니면 에러 발생함.

OPTIONS #

-h, --help
    show this help message and exit

--version
    show program''s version number and exit

--config=config.ini Load your config file. The config file contains all options.
    if you use this options,you can ignore all the other options bellow.

-i INPUTFILE, --input=INPUTFILE
    input file of variants for analysis

--input_type=AVinput The input file type, it can be AVinput(Annovar''sformat),VCF

-o OUTPUTFILE, --output=OUTPUTFILE
    prefix the output file (default:output)

-b BUILDVER, --buildver=BUILDVER
    version of reference genome: hg18, hg19(default)

-t intervardb, --database_intervar=intervardb The database location/dir for the InterVar dataset files

-s your_evidence_file, --evidence_file=your_evidence_file

이 옵션은 각각의 varinat 분석을 위해 사용자가 설정하여 사용할 수 있다.

The format for upgrad/downgrade of criteria should be like:
grade_PS1=2;           1 for Strong; 2 for Moderate; 3 for Supporting)

 Chr Pos Ref_allele Alt_allele  evidence_list
 1 123456 A G PM1=1;BS2=1;BP3=0;PS5=1;grade_PM1=1

--table_annovar=./table_annovar.pl The Annovar perl script of table_annovar.pl

--convert2annovar=./convert2annovar.pl The Annovar perl script of convert2annovar.pl

--annotate_variation=./annotate_variation.pl The Annovar perl script of annotate_variation.pl

-d humandb, --database_locat=humandb The database location/dir for the Annovar annotation datasets

--table_annovar =. / table_annovar.pl table_annovar.pl의 Annovar perl 스크립트

--convert2annovar =. / convert2annovar.pl convert2annovar.pl의 Annovar perl 스크립트

--annotate_variation =. / annotate_variation.pl annotate_variation.pl의 Annovar perl 스크립트

-d humandb, --database_locat = humandb Annovar 주석 데이터 세트의 데이터베이스 위치 / 디렉토리

EXAMPLE #

./InterVar.py -c config.ini  # Run the examples in config.ini
./InterVar.py  -b hg19 -i your_input  --input_type=VCF  -o your_output

HOW DOES IT WORK #

InterVar는 VCF 형식 또는 ANNOVAR 입력 형식의 미리 주석이 달린 파일 또는 주석이 없는 입력 파일을 사용한다. 여기서 각 줄은 하나의 유전 변이에 해당한다. 입력 파일에 주석을 달지 않으면 InterVar가 ANNOVAR를 호출하여 필요한 주석을 생성한다. InterVar의 실행은 크게 두 가지 주요 단계로 이루어져 있다. 1) 자동으로 28개의 코드를 해석한다. 2) 임상적 중요성을 재해석하기 위해 사용자에 의한 수동 조정, 그러나 사용자는 "-evidencefile = your_evidence_file" 인수를 사용하여 고유한 증거 코드를 지정하고, InterVar로 가져올 수 있으므로 한 단계만으로 최종 결과를 생성할 수 있다. 결과물에서 자동으로 생성되거나 사용자가 제공하는 모든 28가지 증거 코드를 기반으로 각 변종은 "병원성", "가능성이 있는 병원성", "불확실한 중요성", "가능성이 양성" 또는 "양성"으로 지정된다. 또한 http://wintervar.wglab.org에서 액세스할 수 있는 wInterVar라는 InterVar 웹 서버를 개발했다. 사용자는 wInterVar에서 염색체 위치, dbSNP 식별자 또는 핵산 변경 정보가 포함된 유전자 이름을 사용하여 직접 missense 변이형을 입력할 수 있다. wInterVar 서버는 변형에 대한 모든 증거 코드를 포함하여 변형에 대한 모든 세부 정보를 제공한다. 그런 다음 사용자는 이러한 증거 코드를 수동으로 조정하고 서버에 다시 제출하여 재해석을 수행할 수 있다. 가능한 모든 동의어가 아닌 변형에 대한 모든 코드가 우리에 의해 사전 계산되었으므로 wInterVar의 실행은 결과를 얻기 위해 일반적으로 1초 미만으로 매우 빠르다. 그러나 wInterVar 서버는 다른 유형의 변형 (예 : indels)을 처리할 수 ​​없으므로 사용자는 대신 InterVar를 사용해야 한다.

Reference #

0.0.1_20240318_1_v95