Skip to content

CASP #

Find similar titles

13회 업데이트 됨.

Edit
  • 최초 작성자
    cloudgo
  • 최근 업데이트
    hmkim

Structured data

Category
Database

세계 단백질 구조 예측 대회 #

Post-Genome 시대에서 가장 중요한 과제 중 하나인 단백질 구조 예측은 구조예측방법 및 예측률의 정확성 향상을 위하여 1994년에 최초로 세계 단백질 구조 예측 대회(CASP,http://predictioncenter.org/)를 시작하였고, 그 후 2년마다 열리고 있다. CASP는 The Critical Assessment of protein Structure Prediction 의 약자이다. 1994년 1회의 CASP1을 시작으로 2020년 CASP14까지 진행되었으며 2022년 기준 CASP15가 진행중이다. CASP에서는 구조 예측이 진행 되었으며, 예측에 대한 평가 결과는 그해 12월에 발표된다. CASP 의 주최측(미국 정부 연구소인 Lawrence Livermore NationalLaboratory)에서는 삼차 구조가 알려지지 않았지만 곧 구조가 실험으로 결정될 단백질들의 서열을 전 세계의 실험그룹들로부터 모아서 CASP문제들을 출제한다. 구조 예측을 원하는 그룹들은 여름 동안 삼차 구조가 알려지지 않은 단백질들의 구조를 이론적으로 예측하여 각 문제마다 달리 정해진 마감일 전에 예측한 결과를 주최측에 제출하여야 한다. 어떤 문제들은 마감일 전에 정답이 알려져서 문제가 취소되기도 한다.

Image

<그림1. Protein Structure Prediction Center와 CASP>

CASP 주요 히스토리 #

CASP6 (2004) #

CASP 대회의 구조예측 방법은 세분화되며, 대회를 이해하는데 도움이 되도록 2004년 CASP6에 진행한 평가 내용을 서술하도록 하겠다. 내용을 통하여 구조예측 방법에 대해 접하는것도 좋은 기회일 것이다.

전 세계에서 266 그룹이 2004년 여름 동안 단백질 구조 예측에 참가하였다. 같은 해 가을에 주최 측이 정한 평가(evaluation)단에 의해서 예측 결과들이 평가된다. 주어진 문제의 단백질 아미노산 서열에 따라서 서로 다른 방법을 적용하여야 하고 예측 정확도도 크게 다르기 때문에, 주최 측에서는 서로 다른 세 분야(Comparative Modeling, Fold Recognition, New Fold 방법)의 평가단을 따로 구성해서 예측 결과들을 평가하며, 구조 예측 그룹에게는 아미노산 서열만이 주어지기 때문에, 구조 예측 그룹은 주어진 문제가 어떤 경우에 해당하는지 먼저 결정해야한다. 즉 문제 유형을 먼저 파악해야하지만, 이 또한 아직 완전히 해결되지 않은 어려운 문제이다. CASP6 평가에서 가장 두드러진 특징은 Fold Recognition 분야에 속하는 문제들을 크게 두 분야 - Fold Recognition/Homology(FR/H) 문제와 FoldRecognition/Analogy(FR/A) 문제 - 로 다시 세분하였다는 점이다. FR/H 에속하는 문제는 어렵지만 친족 관계(homology)를 확실히 찾을 수 있는 경우이고, FR/A 에 속하는 문제는 친족 관계가 불분명해서 FR/H 문제보다 어려운 경우에 해당한다. CASP6 예측 그룹들이 사용한 방법들에서 나타난 새로운 경향은 Comparative Modeling(CM) 분야의 문제들에 사용한 방법들과 FR/H 분야의 문제들에 사용한 방법들의 경계선이 모호해졌고, 동시에 FR/A 분야의 문제들에 사용한 방법들과 New Fold(NF) 분야의 문제들에 사용한 방법들의 경계선이 모호해졌다는 점이다.]

template-based modeling (주형 기반의 모델링 정확도 향상) #

서열 유사성을 활용한 template 기반의 모델링 정확도는 CASP 실험 과정에서 엄청난 개선이 있었다. CASP의 첫 10년 동안은 전반적인 정확도 향상이 있었으며, CASP12(2016)까지 예측 정확도의 급격한 향상을 이루어냈다. 2014년부터 2016년까지 2년 동안 제출된 모델의 backbone 정확도는 이전 10년보다 더 많이 향상되었고, 2014~2018년 모델의 정확도 개선은 2004~2014년의 두 배로 증가하였다(그림2의 1번 이미지 참조).

이러한 정확도 향상의 원인은 사용할 수 있는 template의 target sequence에 대한 보다 정확한 정렬, 여러 template 결합, template 미적용 영역의 정확도 향상, 모델의 성공적인 개선 및 세트 모델 선택 방법 등의 여러 요인이 이에 기여하였다.

특히 CASP14 부터는 Deep learning 방법인 AlphaFold2의 활용으로 계산된 3차원 단백질 구조의 정확도가 비정상적으로 향상 되었다. 이 방법으로 구축된 모델은 대상의 60% (~2/3) 까지는 매우 높은 실험 정확도(GDT_TS>90)를 보였으며, 대상을 90%까지 확대하여도 높은 실험 정확도(GDT_TS>80, 그림2의 2번 이미지 참조)를 보이기에 예측에 대한 정확도와 경쟁력이 입증되었다.

TBM에 대한 CASP14 모델의 정확도는 template 정보를 간단히 전사하기에 구축 가능한 모델의 정확도를 크게 향상했으며, 평균 GDT_TS=92 수준에 도달하였다(그림2의 3번 이미지 참조).

Image

<그림2. 주형 기반의 모델링>

CASP 버전별 구조 데이터 모델링 현황 #

CASP1 ~ CASP3 #

CASP1(1994)은 최초의 CASP로 35개 그룹이 참석하여 186개의 모델을 예측하였다. CASP2(1996)은 72개의 그룹이 참석하여, 1894개의 모델을 예측하였고, CASP3(1998)는 120개 그룹이 참석하여, 3,807개의 모델을 예측하였다.

Image

<그림3. CASP1 ~ CASP3의 통계정보>

CASP4 ~ CASP6 #

CASP4(2000)은 160개 그룹이 참석하여 11,136개의 모델을 예측하였다. CASP5(2002)은 187개의 그룹이 참석하여, 28,728개의 모델을 예측하였고, CASP6(2004)는 201개 그룹이 참석하여, 32,703개의 모델을 예측하였다.

Image

<그림4. CASP4 ~ CASP6의 통계정보>

CASP7, CASP8 #

CASP7(2006)은 207개의 그룹이 참석하여, 63,717개의 모델을 예측하였고,CASP8(2008)는 113개 그룹이 참석하여, 80,560개의 모델을 예측하였다.

Image

<그림5. CASP7,CASP8의 통계정보>

CASP9, CASP10 #

CASP9(2010)은 109개의 그룹이 참석하여, 86,891개의 모델을 예측하였고,CASP10(2012)는 95개 그룹이 참석하여, 66,297개의 모델을 예측하였다.

Image

<그림6. CASP9,CASP10의 통계정보>

CASP11 #

2014년에 진행한 CASP11은 123개 그룹이 참석하여 58,835개의 모델을 예측하였다.

Image

<그림7. CASP11의 통계정보>

CASP12 #

2016년에 진행한 CASP12는 111개 그룹이 참석하여 54,970개의 모델을 예측하였다.

Image

<그림8. CASP12의 통계정보>

CASP13 #

2018년에 진행한 CASP13는 217개 그룹이 참석하여 57,249개의 모델을 예측하였다.

Image

<그림9. CASP13의 통계정보>

CASP14 #

2020년에 진행한 CASP13는 216개 그룹이 참석하여 67,976개의 모델을 예측하였다.

Image

<그림10. CASP14의 통계정보>

CASP15 #

2022년에 현재 88개의 대상 모델을 기준으로 CASP15가 진행 중이다.

CASP의 활용 #

CASP 대회에서 수집한 구조데이터 정보는 구조를 예측하기 위한 기초데이터 또는 주형 정보를 활용이 가능하다. I-TASSER(2006-2012 CASP 대회 정보 활용 - CASP7, CASP8, CASP9 and CASP10), HHpred(2010 CASP9 대히에서 예측한 단백질 구조정보를 주형으로 활용), RaptorX(2010 CASP9 대회의 타겟정보와 정렬하여 활용)등의 프로그램은 CASP 정보를 활용하여 구조를 예측한다.

출처 #

https://www.cheric.org/files/research/ip/p200509/p200509-501.pdf
http://predictioncenter.org/

Suggested Pages #

0.0.1_20230725_7_v68