Skip to content

데이터 품질진단 기법 #
Find similar titles

Structured data

Category
Management

데이터 프로파일링 #

데이터 프로파일링은 일련의 검사를 진행하여 데이터의 정보와 통계치를 수집하는 것이다. 데이터 프로파일링은 발견, 검증, 절차로 구성된다. 발견 절차를 통하여 오류의 가능성이 있는 부정확한 데이터 현상을 업무 담당자와 분석가의 협의를 거쳐 데이터의 오류 여부를 결정하고 이 행위를 데이터 검증이라고 한다.

메타데이터 수집 및 분석 #

Image

메타데이터 수집 (출처)

메타데이터 수집 #

메타데이터 수집은 프로파일링 수행 이전에 수행하며 데이터의 부정확성을 판단하는 중요한 기초자료이므로 가능한 모든 정확한 메타데이터를 수집해야 한다. 수집할 주요 데이터 메타데이터로는 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서 등이 있다.

Image

메타데이터 분석1 (출처)

Image

메타데이터 분석2 (출처)

메타데이터 분석 #

데이터 관리 문서와 실제 운영 시스템간의 구조 정의를 비교하여 누락된 데이터 구조와 불일치 유형을 파악한다. 메타데이터 분석을 통해 수행할 수 있는 분석 유형은 테이블명 누락·불일치,컬럼 누락·불일치 등이 있다.

Image

컬럼 속성 분석1 (출처)

Image

컬럼 속성 분석2 (출처)

컬럼 속성 분석 #

품질 진단 대상 데이터베이스의 컬럼 총건수·유일값 수·NULL수·공백값 수·최대,최소값·최대,최소 빈도값·등의 수치형의 경우 분산, 표준편차 평군의 기초 집계값 등을 각각 산출하여 이들이 유효범위 내에 존재 여부를 일차적으로 판단한다. 도메인의 값 범위·기본값·필수조건·유일성 판단 등의 기본적인 유효성 확인 절차를 문서와 실제 운영 시스템과 대조하여 오류유형을 도출한다.

유형별 프로파일링 기법 #

Image

누락 값 분석 (출처)

누락 값 분석 #

누락 값 분석은 반드시 존재해야 하는 값의 누락이 발생된 컬럼을 도출하는 절차이다. 누락 값 분석은 NULL분포, 공백값, 숫자 등의 분포를 파악하여 수행한다.

Image

값 허용범위 분석 (출처)

값의 허용범위 분석 #

컬럼의 속성 값이 갖는 범위내에 실제 값이 존재하는지의 여부를 파악하고 오류 유형을 도출한다. 츨걍의 단위·자료형의 크기·실수형의 경우 자릿수와 소수점·정밀도 등이 주요 측정 대상이 된다.

Image

허용 값 목록 분석 (출처)

허용 값 목록 분석 #

해당 컬럼의 허용값 목록(코드)에 포함되지 않는 값들을 분석한다. 이를 수행하기 위해서는 대상 컬럼의 개별 값과 발생 빈도를 도출하고 이를 분석한다.

Image

문자열 패턴 분석 (출처)

문자열 패턴 분석 #

컬럼 속성 값의 특성을 각 컬럼 속성마다의 일정한 패턴형식을 미리 도출하여 분석하는 절차이다. 일반적으로 특정 번호(전화번호,주민번호) 또는 이메일 등 발생 유형이 패턴 성격을 가져야 하는 컬럼에 대하여 패턴 분석을 적용한다.

Image

날짜유형 패턴 분석 (출처)

날짜유형 분석 #

일반적으로 날짜유형의 값을 갖는 경우는 DBMS에서 제공하는 DATE 유형을 사용하는 경우와 문자형 날짜패턴을 적용하여 값을 갖는 경우이다. 전자의 경우에는 오류가 존재할 수 없으므로 날짜유형 분석과 품질 진단 대상 컬럼에서 제외된다. 후자의 경우에는 유효범위와 각 날짜의 유형을 분석한다.

Image

유일값 분석 (출처)

유일값 분석 #

유일값 분석은 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었는지의 여부를 파악하는 절차이다. 예를 들면 고객 마스터 테이블의 주민등록번호, 사입자 마스터 테이블의 사업자등록번호 등이 이에 해당한다.

Image

구조 분석 (출처)

구조 분석 #

데이터 구조 분석은 구조 결함으로 인한 일관되지 못한 데이터를 발견하는 분석 기법으로, 관계분석·참조 부결성 분석·구조 무결성 분석 등으로 불리기도 한다. 잘못된 데이터 구조로 인해 데이터 값에서 일관되지 못하거나 부정확한 값이 발견되는 현상을 파악하는 절차이다.

0.0.1_20210630_7_v33