OLAP 소개
#
Find similar titles
- (rev. 1)
- Kyooyeol Lee
Structured data
- Category
- Database
OLAP(Online Analytical Processing, 온라인분석처리) #
소개 #
온라인 분석 처리(Online Analytical Processing, OLAP)는 의사결정 지원 시스템의 하나로, 데이터를 사용자의 시각에 따라 다양한 방식으로 접근하면서 다차원 분석을 할 수 있도록 해주는 시스템이다.
쉽게 이야기 하자면 공공 및 기업부분에서 비즈니스 등 단순 업무 처리 정보로 구성된 대규모 데이터베이스를 더 가치 있게 활용하고자 다차원 분석기술을 도입하여 원시 데이터를 바로 실천으로 옮길 수 있도록 요구되고 있다.
특히 기업에서 단순한 물품의 재고, 거래 데이터베이스 정보에서 최대 가치를 이끌어 낼 수 있도록 구성해야 한다. 즉 방대한 양의 데이터를 유익하고 활용 가능한 정보로 전환하여 사용자가 이를 분석할 수 있게 해 주어야 한다.
예를 들어 제품과 지역, 고객, 기간, 날씨, 성별, 나이 등과 같이 중요한 요인과 연관시켜 비교하는 것이 필요하다.
OLAP는 1993년 에드거 F. 커드에 의해 처음 제안된 것으로, 사용자가 다차원 정보에 접근하여 대화 정보를 분석하고 의사결정에 이용하는 과정이라고 정의하여 단순한 업무 처리를 넘어 다양한 형태로 정보를 분석하고 의사결정에 활용하는 단계다. 따라서 이는 기존 데이터의 축적에서 데이터의 활용으로 전환하는 계기가 되었다.
결국 사용자가 다차원 정보에 접근하여 질의 방식으로 정보를 분석하고 의사결정에 활용하는 과정에서 단순 업무 처리가 아니라 다양한 시각에서, 또는 전체적인 시각에서 바라보는데 그 목적이 있다.
특징 #
일반적인 특징은 다음과 같다.
-
다차원 정보 제공 다차원정보에 직접적으로 대화방식으로 접근하는 것이다. 일반적으로 데이터베이스는 2차원인 반면 실제 업무에서 요구하는 것은 다차원의 데이터 접근이다. 그래서 다차원 데이터베이스를 만들고 전문화된 전용 데이터베이스 엔진으로 정보를 추출하는 과정이 필요하다.
-
사용자가 직접 데이터 접근 사용자가 온라인으로 직접 접근하여 사용하는 것으로 홈뱅킹, VOD 또는 TV쇼핑 등에 사용할 수 있다.
-
대화형태 정보분석 정보 분석은 대화 형태로 진행된다. 대화로 진행되기 때문에 사용자는 명령을 하고 오래 기다리지 않는다. 따라서 신속성이 중요하다. 사용자가 질의했을 때 신속하게 처리해야 한다.
-
의사 결정지원 질의, 목표탐색, 원인-결과 분석
[정보 출처: 위키 백과(wikipedia)]
결국 위키백과에서 정의하였듯이 OLAP 기술은 트랜젝션 등 단순 데이터터 처리가 아닌 질의 및 응답(보고)를 위해 최적화된 데이터베이스 기술이라 할 수 있다. 즉, 원본 데이터는 데이터 웨어하우스에 저장되는 OLTP 데이터베이스로 구성되어야 한다. 이는 단순 기록 데이터에서 한 단계 나아가 정교하고 세밀한 데이터 분석이 가능한 구조로 변경되어야 한다. 또한 계층 구조로 구성되고 일반적인 RDBMS의 테이블 방식이 아닌 큐브에 저장되어 분석에 필요한 데이터에 직접 빠르게 접근이 가능해야 하는 다차원 구조의 고급 기술이다.
OLAP 데이터베이스는 데이터 검색 속도가 중요한 요소이다. 사용자가 대화형으로 정보 분석을 진행하기 때문에 질의를 하면 빠른 속도로 그에 대한 응답이 필요하다.
구성요소 #
그래서 다음과 같은 구성요소로 만들어져야 한다.
-
큐브 분석하려는 각 차원의 수준과 계층에 따라 측정값을 집계하는 데이터 구조. 큐브는 시간, 지역등 여러 차원을 판매량 또는 재고량과 같은 요약된 데이터와 결합한다. 큐브의 양쪽 면이 같지 않아도 되므로 정확하게는 수학적 의미의 "큐브"가 아니지만 복잡한 개념에 대해 적절한 은유라 할 수 있다. OLAP 큐브는 데이터의 신속한 분석을 제공하여 관계형 데이터베이스의 한계를 극복하는 데이터 구조이다. 큐브는 사용자에게 어떠한 데이터 요소에 대해서도 검색 가능한 액세스를 제공하는 한편 많은 데이터를 표시 및 총합할 수 있다.
-
측정값 큐브의 팩트 테이블 열을 기준으로 하는 큐브의 값 집합으로 주로 숫자 값이다. 측정값은 전처리, 집계 및 분석되는 큐브의 중심적인 값이다.
-
구성원 하나 이상의 데이터 발생을 나타내는 계층의 항목이다. 고유 또는 중복 구성원이 될 수 있다.
-
계산된 구성원 식을 사용하여 실행할 때 값이 계산되는 차원의 구성원이다. 계산된 구성원 값은 다른 구성원 값에서 파생될 수 있다.
-
차원 사용자가 데이터 분석의 기반으로 이해하고 사용하는 큐브에서 하나 이상의 계층 구조 수준으로 구성된 집합이다. 예를 들어 지역 차원은 국가/지역, 시/도 및 구를 포함할 수 있다. 시간 차원은 연도, 분기, 월, 일에 대한 수준이 있는 계층 구조를 가질 수 있다.
-
계층 구조 각 구성원에게 상위 구성원이 하나 있고 하위 구성원이 없거나 하나 이상 있는 차원의 구성원을 구성하는 논리적 트리 구조이다.