DW, Data Mart 그리고 Data Lake와 같은 데이터들을 모아두는 집합체들과

데이터의 목적 그리고 분석방법에 대해 간략히 공부한 것을 공유한다.

DW와 Data Mart 그리고 Data Lake

  • 데이터소스(data source)
    • 데이터가 존재하는 곳
    • RDB나 로그가 저장되는 서버 등
  • 로우 데이터(raw data)
    • 가공되지 않은 원시적인 상태의 데이터
  • ETL(Extract Transform Load)
    • 데이터를 추출하고 가공하고 적재하는 행위
    • 주로 DW에서 사용
  • ELT(Extract Load Transform)
    • 데이터를 추출하고 적재한뒤 원하는 대로 가공하는 형태
    • 주로 Data Lake에서 사용

DW(Data Warehouse)

DW는 우리가 흔히 일반적인 목적으로 사용하는 RDB와는 달리

데이터의 장기적인 보관

에 최적화

DW는 정리된 데이터를 한 번에 전송하는 것은 뛰어나지만, 소량의 데이터를 자주 읽고 쓰는 것에는 부적합

보통 하루동안 모은 데이터를 밤이나 그 다음날 새벽시간대를 이용하여 데이터를 집계하여 보고서 등에 사용

주로 SQL을 사용함

Data Lake

데이터가 커지고 다양해지면서 DW로는 이런 데이터들을 모두 호환하기에 어려움이 있어 등장한 개념

ETL을 통하여 가공된 데이터를 쌓아놓는 DW와 달리

원본 데이터를 그대로 저장

함으로써 다양한 데이터 종류를 지원함

이런 원시적인 형태의 데이터를 저장할 수 있기에 모든 데이터가 모인다는 의미로 Data Lake

그러나 기존의 DW에서 사용하던 ETL을 사용하기에는 적합하지 않아 ELT가 등장

보통 분산 스토리지가 데이터 레이크로 이용되며, 데이터 형식은 보통 JSON(JavaScript Object Notation)이나 CSV(Comma Separated Values) 등을 범용적인 형태를 사용

Data Mart

복잡한 데이터 분석에서는 데이터 마트를 먼저 구축한 뒤에 분석이나 시각화 진행

시각화에 BI 툴을 사용한다면 데이터 마트는 필수적이라 볼 수 있음

보통 DWData Lake와 같은 커다란 집합체에서 작은 단위의 데이터를 보고자 할 때, Data Mart로 만든다

DW to Data Mart

DW의 작은 사이즈

DW에서 원하는 데이터를 추출하여 BI도구와 조합시키는 형태로 사용됨

DW와 마찬가지로 주로 SQL을 사용함

Data Lake to Data Mart

Data Lake는 단순한 스토리지다

변환된 데이터는 없고 원시 데이터만 있으므로 데이터 마트의 역할을 하게 하려면 Hadoop MR, Spark와 같은 분산 데이터 처리 기술을 지원하는 것들로 Data Mart로 옮겨주는 등의 작업을 해야 한다

일종의 ELT 프로세스를 적용해서 Data Mart에 적재하는 것이다.

데이터

데이터 수집의 목적

  1. 데이터 검색
    • 수집한 데이터들을 검색하여 원하는 데이터를 찾기 위함
    • 로그 검색, 고객 행동 이력 확인 등
  2. 데이터 가공
    • 데이터를 가공하여 사용하는 경우
    • 추천 시스템 등
  3. 데이터 시각화
    • 데이터를 시각화하여 보고자 하는 경우

데이터 분석

  1. 확증적 데이터 분석(Confirmatory Data Analysis)
    • 가설을 세우고 그것을 검증하는 방법
    • 통계학적 모델링
  2. 탐색적 분석(Exploratory Data Analysis)
    • 데이터를 보면서 그 의미를 읽어내는 방법
    • 데이터를 시각화하여 사람이 의미를 추출

포스트에 대한 피드백이 있으시다면 여기로 메일 부탁드립니다. 읽어주셔서 감사합니다.