Skip to content

주성분 분석 #
Find similar titles

Structured data

Category
Analysis

PCA (Principal Component Analysis) #

주성분 분석의 정의 #

통상 통계분석에서 이용하는 주성분분석은 원 변수를 잘 반영하는 새로운 변수(주성분 변수)를 원 변수의 선형결합으로 만들어, 변수를 축약(일반적으로 3개 이하)시키고 주성분 변수 이용하여 개체마다 새로운 주성분변수의 점수를 계산하게 된다. 그 후 이 값들을 이용하면 개체분류, 데이터 스크린, 이상치 탐색이 가능하다.

주성분 분석의 목적 #

정보의 손실을 최소화하면서 서로 상관관계가 있는 변수들 사이의 복잡한 구조를 더 작고 상관이 없는 구조로 축소하여 변수가 많아 변수들 간의 상관관계를 해석하기 어려울 때 적합하다.

유전체 분석에서 주성분 분석 #

유전체 분석에서의 주성분 분석은 유전자형을 이용하여 유전적 변이(Genetic vatiation)의 축(Axes)을 설정하고 산점도를 그려서 그룹화로 개체들을 분류하는 방법이다.이 분석법은 통계분석의 주성분분석과 달리, 유전체정보를 이용한 주성분 분석은 데이터행렬 작성방법에서 다른 부분이 있다.

Image

g(ij)를 표지인자 i의 유전자형과 개체 j에 대한 행렬이라고 할 때, 표지인자는 M개, 개체는 N개가 존재한다. 각 표지인자의 유전자형에서 두 개의 allele 중 그 빈도가 작은 Minor allele을 a라고 한다면 AA, Aa, aa를 각 0, 1, 2로 코딩한다. 그 후 각 행의 합이 0인 행렬을 만들기 위해서 행의 각 유전자형마다 평균을 빼고 p(i)를 이용하여 정규화를 시키는데, 여기서 p(i)는 관측되지 않은 표지인자 i 대립유전자빈도의 posterior estimate이며 공식은 아래와 같다.

Image

이렇게 원 데이터를 처리한 행렬을 X행렬(M x N)이라 한다. X행렬의 각각의 개체를 변수로 잡고 개체에 대한 공분산 행렬인 Ψ(N x N)을 만들면 공분산 행렬(대칭행렬)의 특성상, 행렬 Ψ를 고유치(Eigen value, λ)와 각 고유치에 해당하는 고유벡터(Eigen vector, e)로 분리할 수 있다. 주성분분석법에선 고유치의 크기가 클수록 개체들을 가장 잘 설명하는 주성분 변수라고 정의되기에 만들어진 고유치를 크기별로 나열하는데 이때 고유치의 순서마다 나열된 해당 고유벡터들은 산점도의 축(Axis)으로 설정된다. 이 때문에 고유벡터의 각각의 값 a(jk)들은 k번째로 전체 개체를 잘 설명하는 축의 j개체의 산점도 좌표가 된다.

Image

2006년의 Alkes L Price 등에서 발표한 주성분분석법에 따르면, X행렬은 XTX를 했을 시에 공분산행렬인 Ψ와 동등한 특성을 지니므로, 아래의 공식으로 고유치와 고유벡터를 계산할 수 있다.

Image

여기서 V는 공분산 행렬의 고유벡터들이고 S^2는 대각원소가 공분산 행렬의 고유치인 대각행렬(Diagonal matrix)이다.

0.0.1_20210630_7_v33