이전 포스트들로 DW와 Data Lake의 차이, DW에서 Data Lake로 가는 이유에 대해 알아봤고,

이제 이 포스트와 다음 포스트를 이용해 DW와 Data Lake에 대해 공부한 것을 풀어보려 한다

DW는 사실 이전 포스트에서 어느정도 다뤘었다

먼저 간단히 그림을 통해 DW의 아키텍처를 살펴보자

큰 그림부터 살펴보고 자세히 살펴보자

Data Warehouse Architecture

DW는 이전 포스트에서 어느정도 언급했듯이

데이터에 기반한 의사결정을 위한 분석 가능한 중앙 Repository

DW는 그림과 같이 3개의 tier로 나눌 수 있다.

먼저 제일 아래(Bottom Tier) Data부터 보자

Data는 말 그대로 DW에 적재될 데이터들을 가지고 있는 RDB를 비롯한 여러 데이터 소스들이다.

여기에는 데이터가 로드되고 저장되는 DB 서비스다.

그 다음은 중간(Middle Tier)는 OLAP(OnLine Analytical Processing) 서버로 ROLAP(Relational OnLine Analytical Processing)나 MOLAP(Multidimensional OnLine Analytical Processing) 모델을 사용하여 구현한 것이다.

ROLAP와 MOLAP 같은 모델링 기법은 별도의 포스트에서 다루도록 하겠다

특히 이 티어는 데이터 베이스의 abstracted view를 표현하며, 사용자(end user)와 database와 같은 데이터들 사이를 중재하는 역할을 한다.

마지막 위에 있는 것(Top Tier)은 실질적으로 유저들이 사용하는 front-end 클라이언트들이 있는 레이어다.

여기에서는 툴, API 와 같은 Middle Tier에 접속하여 데이터를 가져오는 티어다. 주로 사용자들이 사용하는 곳이다.

여기에는 쿼리 툴(Query Tools)이나 리포팅 툴(Reporting Tools), 데이터 마이닝 툴(Data mining tools)들이 사용된다

DW는 아래의 특성들을 가진다

  1. 목표 지향(Subject-Oriented)
    • 현재 회사가 지속적인 운영에 대한 것이 아닌 주제에 따른 데이터를 제공하는 것(세일즈, 마케팅 등)
    • 절대 지속적인 운영에 대한 것에 포커스를 두지 않음
    • 의사결정을 위한 데이터 모델링과 분석에 중점
    • 의사결정 프로세스에 도움이 되지 않는 것들을 과감히 제거하여 특정 주제에 대하여 간단하고 간결한 보기를 제공
  2. 통합(Integrated)
    • 다른 데이터베이스들에서 오는 비슷한 데이터들을 분석하고 공통의 것들로 만드는 것을 의미
    • 데이터 프레임, RDB 등 다양한 데이터 소스로부터 개발되기 때문에 네이밍 컨벤션(Naming Convention), 형식과 코딩 등을 일치시켜야 함
    • 이런 통합은 효과적인 데이터 분석에 도움이 되며, Naming Convention, attribute measures, encoding structure 등 일관성이 보장되어야 함
  3. 시간 변화에 따른 변화(Time-variant)
    • OS에 비해 시간 범위과 매우 광범위
    • 수집된 데이터가 특정 기간으로 인식되며 과거 관점에서 정보를 제공. 명시적이든 암시적이든 시간적 요소를 포함
    • 한 번 삽입되면 이를 업데이트하거나 변경할 수 없음
  4. 비휘발성(Non-volatile)
    • 비휘발성이므로 데이터가 지워지지 않음
    • 데이터는 읽기전용이며 주기적으로 새로고침됨
    • 이력 데이터를 분석하고 언제 무슨일이 발생했는 지 알 수 있음
    • 트랜잭션이나 리커버리, 동시성 제어 메커니즘이 필요하지 않음
    • DW에서는 데이터의 삭제나 업데이트, 삽입은 무시되며, 데이터 액세스와 데이터 로딩만이 허용됨

이렇게 DW의 아키텍처와 특성에 대해서 알아봤다.

아 참, 그리고 데이터 마트 라는 것도 있는데, DW가 전사적인 규모라면 데이터 마트(Data Mart)는 사업부 단위의 규모인 DW로 보면 된다.

즉, 전사적인 규모는 DW, DW보다는 작고 사업부 규모를 커버하기 위해서 존재하는 DW가 데이터 마트다.


포스트에 대한 피드백이 있으시다면 여기로 메일 부탁드립니다. 읽어주셔서 감사합니다.