Skip to content

Data mining 자료탐색 및 군집화 #

Find similar titles

23회 업데이트 됨.

Edit

You are seeing an old version of the page. Go to latest version

Structured data

Category
Database

자료탐색 #

  • 데이터마이닝에서 이용되는 자료(data)는 관심의 대상이 되는 사물이나 사건의 속성을 일정하고 같은 규칙에 의해 측정,관찰 또는 조사함으로 써 얻을 수 있다. 조사된 데이터는 다양한 데이터 마이닝이 적용 되는 다양한 분야에서 얻어진다. 자료를 구성하는 가장 기본이 되는 개체를 단위 또는 케이스 라고하는데 단위는 관심의 대상인 모집단을 구성하고 있는 개별 조사대상이다. 변수는 각 다위에 대해 측정되는 특성, 속성을 의미한다.

자료의 구성요소 #

용어 설명
단위 관찰되는 항목,대상
관찰값 각 조사단위로부터 기록된 정보나 특성
변수 각 단위에 대해서 측정되는 특성
자료 하나 이상의 변수에 대한 관찰값의 모임

변수의 종류 #

  • 수집된 자료를 이해하려면 우선 수집된 자료가 어떤 형태의 변수를 포함하고 있는지를 점검해야 한다.
용어 설명
질적 변수 성별, 거주지역 등과 같이 조사대상을 특성에 따라 범주로 구분하여 측정된 변수를 범주형 변수라고도 한다. 덧셈, 뺄셈의 연산을 할 수 없으며 범주의 순서 존재여부에 따라 명목형과 순위형으로 구분된다.(예 명목형: 종교,지역/ 순위형: 성적 A=100 B =80 C =60)
양적 변수 (이산형 변수) 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우(학생수,물건수)
양적 변수 (연속형 변수) 변수가 구간 안의 모든 값을 가지는 경우 (길이,무게)

일변량 데이터 탐색 #

  • 일변량 데이터(univariate data)란 각 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료를 말하며 단변량 자료라고도 한다. 일변량 데이터에 대한 탐색을 실시하는 방법에는 기술 통계량, 그래프 통계량 두가지 종류가 있다.

기술 통계량 #

  • 중심위치의 측도
    • 평균
      • 평균은 중심위치의 관측값의 합계를 자료의 개수로 나누어 구한다.
    • 중앙값
      • 중앙값은 전체 자료값을 가장 작은 자료값부터 크기 순서로 배열하고 가운데 위치값을 중앙값이라 한다.
    • 사분위수
      • 중앙값의 크기순으로 정리된 자료값을 4등분하는 값을 사분위수라 한다.
  • 산포의 측도

    • 분산과 표준편차
      • Image
    • 범위
      • 범위는 자료를 크기순으로 배열하였을 떄 까장 큰 자료값과 가장 작은 자료값의 차이
      • 범위 = 자료의 최대값 - 자료의 최소값
  • 원그래프

    • 원그래프 전체를 구성하는 부분의 구성비를 나타낼 떄 적합한 방법이다. 하나의 원이 전체 자료를 나타내고, 그 각각의 구성되는 비율을 부채꼴의 조각으로, 즉 중심각의 크기로 나누어 나간다. 따라서 각 범주가 차지하는 비율을 파악하기 쉽다.

Image

  • 막대그래프

    • 막대그래프는 각 범주에 속한 도수나 비율을 하나의 막대로 나타내는 기법이다.
  • 히스토그램

    • 연속형 자료에서도 도수분포표를 기초로 하여 각 계급에 대하여 범주형 자료에서의 막대그래프와 같은 모양의 그림을 그릴 수 있는 그패르를 히스토그램이라고 한다.

Image

이변량 데이터 탐색 #

  • 이변량 데이터란 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료를 말한다. 이변량 데이터의 탐색은 조사대상의 각 개체로부터 두 개의 특성을 동시에 관측하는 경우인데, 이러한 경우 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상이다.

  • 상관계수

    • 두 연속형 변수 X와 Y의 연관성 저도를 하나의 수치로 나타내는 척도로 주로 상관계수 r을 사용한다. 상관계수r는 선형적 강도와 상관의 방향을 나타낸다.

Image

  • 산점도
    • 두 변수 간의 관계도 그림을 통하여 파악하는 방법이다.

Image

다변량 데이터 탐색 #

  • 다변량 데이터란 하나의 단위에 대해 두 가지이상의 특서을 측정하는 경우 얻어지는 변수에 대한 자료를 말하는데 이변량 데이터도 다변량 데이터의 예랴고 해도 무방하다. 다변량 데이터 역시 분석을 사행하기 이전에 산점도행렬,별그림,등고선그림 등을 통해 시각적으로 자료를 탐색해 볼 필요가 있다.

  • 산점도 행렬

  • 별그림

  • 겨냥도그림

  • 등고선 그림

군집화 #

  • 군집분석, 군집화, 클러스터링(Clustering)은 모두 같은 뜻이라고 봐도 무방하다. 통계학에서는 군집분석이라고 부르며 기계학습에서는 클러스터링이라고 부른다. 그리고 클러스터링을 한국어로 바꾸면 군집화가 된다. 클러스터링은 패턴인식에서는 양자화(Quantization) 또는 코딩(Coding)이라고 부르기도 한다. 클러스터링은 하면 여러 개체를 묶는 것을 말한다. 어떤 방법을 사용해서든 주어진 개체들을 여러 개의 그룹으로 묶으면 그것을 클러스터링이라고 부를 수 있다. 보통 컴퓨터공학(computer science)에서의 클러스터링은 여러 서버나 플랫폼을 하나로 묶어 선형확장성 같은 것을 보장하고 대규모 트래픽을 처리하거나 병렬 연산을 수행할 수 있도록 하는 것을 말하는데 기계학습과 데이터마이닝에서 말하는 클러스터링과는 구분을 할 필요가 있다. 데이터 분석 또는 데이터 마이닝에서는 개체를 비슷한 것끼리 묶는 것을 말한다.
0.0.1_20240318_1_v95