-
[Apache Spark] Spark RDD, DataFrame and DataSet
Spark API 중에 중요하면서 유사한 RDD, DataFrame 그리고 DataSet에 대해서 공부한 것을 정리했다.
-
[Apache Spark] Spark Architecture
Spark의 Architecture에 대해서 알아보자
-
[Apache Spark] Spark?
빅데이터를 처리할 때 많이 사용한다는 Spark Spark는 어떤 녀석인지 알아보겠다.
-
[Apache HBase] HBase의 아키텍처
HBase가 무엇인지 알아봤으니, HBase의 아키텍처에 대해서 알아보겠다.
-
[Apache HBase] HBase가 무엇일까
우리가 흔히 알고 있는 NoSQL DB하면 떠오르는 DB 중 하나이면서, Hadoop에서 많이 사용되고 있는 HBase는 어떤 녀석일까?
-
[Apache Storm] Storm Concepts
실시간 스트리밍 처리에 사용하는 Apache Storm과 그 Concept에 대해서 공부한 것을 공유한다.
-
[BigData] 데이터 수집 파이프라인과 메시지 중복 제거
메시지 브로커를 포함한 데이터 수집 파이프라인과 함께 메시지 브로커에서 at least once를 통해 메시지가 중복으로 올 때, 이를 어떻게 중복제거를 할지 공부한 것을 정리한다.
-
[BigData] 빅데이터 스트리밍 데이터 수집을 위한 Message Broker
지난 포스트에서 언급하고 말았던, 스트리밍형 데이터의 수집을 위한 Message Broker의 여러가지에 대해 공부한 것을 공유하려 한다.
-
[BigData] 빅데이터의 데이터 수집형태, 벌크와 스트리밍
데이터를 수집할 때 빅데이터에서는 2가지 형태로 데이터를 수집한다. 벌크형태와 스트리밍형태로 이 두가지인데 이 두가지 형태에 대한 수집 방법에 대해 공부한 것을 작성한다.
-
[BigData] 대규모 분산 처리
빅데이터를 다룰 때 대규모 분산 처리를 위해서 프레임워크를 사용한다. 대표적으로 Apache Hadoop과 Apache Spark를 사용한다.
-
[BigData 기초] 4. DB의 지연을 줄이기 위한 노력
데이터양이 나날이 증가함에 따라서 데이터의 집계와 분석에 걸리는 시간은 오래 걸린다. 이런 문제를 해결하기 위한 노력에 대한 것 중 DB와 관련된 것의 일부를 공부했고 그것에 대해 정리해본다.
-
[BigData 기초] 3. 크로스 집계 기본
빅데이터의 기본 크로스 집계 분석에 대해서 공부한 것을 공유한다.
-
[BigData 기초] 2. 데이터 집합체 그리고 데이터의 목적과 분석
DW, Data Mart 그리고 Data Lake와 같은 데이터들을 모아두는 집합체들과 데이터의 목적 그리고 분석방법에 대해 간략히 공부한 것을 공유한다.
-
[BigData 기초] 1. 빅데이터의 특성과 그 기술
첫 회사에서 데이터 엔지니어링의 경험을 하고 빅데이터를 자연스레 접하였지만, 이에 대해 부족함이 있어 공부를 하고 포스팅을 하고자 한다.
-
[OLAP] OLAP의 종류 Part 2. MOLAP
저번 Part 1에서 미처 다루지 못했던 MOLAP에 대해서 공부한 내용을 다루고자 한다.
-
[OLAP] OLAP의 종류 Part 1. 여러 OLAP의 소개
다른 것도 그렇듯 OLAP도 여러 종류가 있다. 거기에 대해서 알아보고자 한다.
-
[OLAP]OLAP의 4가지 기본적인 Operation - Part 2
이전 포스트들인 OLAP란?, OLAP의 기본 분석 operation part 1에 이어서 Part 1에서 소개하지 않았던 나머지 2개를 먼저 소개하겠다.
-
[OLAP]OLAP의 4가지 기본적인 Operation - Part 1
이전 포스트 OLAP란?에 이어서 OLAP의 기본적인 오퍼레이션(operation) 4가지를 공부하였고, 2개를 먼저 소개하겠다.
-
[OLAP]What is OLAP, OLAP란?
OLAP(Online Analytical Processing)는 무엇일까?
-
[데이터모델링-1] 데이터 모델링이란?
데이터 모델링이란 무엇일까?
-
ELT와 ETL
이제 ELT와 ETL에 대해서 공부한 것들을 정리한다.
-
Data Lake란
이전 포스트들로 DW와 Data Lake의 차이, DW에서 Data Lake로 가는 이유 그리고 DW에 대해 공부한 것을 정리했었다. 이번에는 Data Lake에 대해서 알아보려 한다.
-
Data Warehouse(DW)란?
이전 포스트들로 DW와 Data Lake의 차이, DW에서 Data Lake로 가는 이유에 대해 알아봤고, 이제 이 포스트와 다음 포스트를 이용해 DW와 Data Lake에 대해 공부한 것을 풀어보려 한다
-
DW에서 Data Lake로 점차 변경되는 이유
이전 포스트에서 DW와 Data Lake를 간단하게 서로 비교해봤으니, 기존의 데이터 웨어하우스(DW)에서 왜 Data Lake로 트렌드가 변하고 있는지 공부한 것을 정리하려 한다.
-
데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이
데이터 엔지니어를 하기 위해 준비하면서 앞으로 공부한 것들을 정리하고자 한다. 먼저 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)가 무엇인지 또 그차이는 무엇인지 공부하고 정리해보았다.