Skip to content

False discovery rate #

Find similar titles
  • 작성자
    Kevin

You are seeing an old version of the page. Go to latest version

Structured data

Category
Statistics

False discovery rate(FDR)은 다중검정에 사용되는 통계방법이다. 예를들어, 어떤 실험군(A)이 대조군(B)에 비해 통계적으로 유의미한 차이가 있는지 5%유의수준으로 검정결과가 나왔다고 하자. 이를 토대로 A는 B와 유의미한 차이가 난다. 라고 말할수 있지만 검정군이 3가지 이상 ( ex.. 수백가지 이상, fMRI의 특정 영역의 voxel 들이 다른 영역보다 활성화 되었는가를 검정할때, 마찬가지로 5%유의수준으로 유의미함을 말할 수 있는지에 대해 생각해보아야한다.

예를들어, 
실험군이 1000개가 있는 경우를 가정하자, 실험군1이 나머지 실험군 999개 보다 p<0.05 로 유미하게 차이가 난다라는 결과를 볼때, 
실험군1이 실험군2과 유의미한 차이가 나지 않으나, 차이가 난다고 잘못 결과를 내렸을 확률(1종오류)은 5%이다. 
실험군1이 실험군3과 유의미한 차이가 나지 않으나, 차이가 난다고 잘못 결과를 내렸을 확률은 5%이다. 
실험군1이 실험군4와 유의미한 차이가 나지 않으나, 차이가 난다고 잘못 결과를 내렸을 확률은 5%이다. 
... 
실험군1이 실험군999와 유의미한 차이가 나지 않으나, 차이가 난다고 잘못 결과를 내렸을 확률은 5%이다.

999가지의 testing이 있는데 이중에 잘못판단을 내렸을 경우는 999*0.05 = 약50 , 즉 50개의 검정은 잘못되었을수 있다. 이렇게 다중검정(multiple comparison )에서 발생하는 문제를 다중검정비교의 문제 (multiple comparison problem, MCP) 라고 한다. 따라서 다중검정인 경우 pvalue 0.05로 끝낼것이 아니라, 이 보다 좀더 strict한 잣대로 검정을 해야 한다. 이러한 다중검정 문제를 해결할 수 있는 통계방법중 하나가 FDR이다.

GWAS분석에서의 FDR #

, GWAS분석에서 Bonferroni correction은 사용하기 매우 간단하고 유용한 방법이지만 너무 엄격하게 대량의 마커를 사용하는 연관성 분석에서는 효용가치가 많이 떨어지고 있다. 이러한 문제점을 극복하기 위해 false discovery rate(FDR)라는 새로운 통계 분석법이 개발되었으며 본 방법은 대량의 유전마커를 이용한 연관성 연구에 매우 유용한 방법이다. FDR은 total positive에 대한 false positive 비율을 의미한다.

False Discovery Rate(FDR)=False positive/total positive

FDR을 계산하는 방법은 1. p-value의 값을 가장 큰 것부터 가장 작은 것 순서로 나열 2. 유의 수준 α=0.05k/N 공식을 이용하여 순차적으로 검정

k = N, (N-1), (N-2), ----, 1

이 분석 방법은 순차적으로 p-value의 값을 줄여감으로써 통계적 파워가 적게 감소하게 되는 장점을 가진다. Bonferroni correction과 FDR을 비교해 보면 Bonferroni correction은 검사 개수(N)가 증가할수록 p-value가 급격히 감소하여 많은 true positive가 유의하지 않게 나타날 수 있다. 그러나 FDR 방법은 검사 개수(N)가 증가하더라도 Bonferroni correction보다 p-value의 감소가 완만하여 true positive가 제거되는 비율이 낮아지는 장점을 가지고 있다.

0.0.1_20240318_1_v95