-
[Hadoop]HBase Compaction
HBase의 compaction에 대해서 알아본다.
-
[Hadoop] Hadoop HDFS의 File Read/Write
Client를 통해 HDFS에 File을 read/write할 때 어떻게 HDFS 내부에서 동작하는지 공부하였다.
-
[Hadoop] Hadoop FileSystem의 몇가지 구현체
Hadoop FileSystem 그 중에서도 구현체 몇가지에 대해서 공부한 것을 간단하게만 정리한다.
-
[Hadoop] HDFS의 컨셉
HDFS의 컨셉과 설계에 대해서 공부한 것을 기록한다.
-
[Apache Spark] Spark RDD, DataFrame and DataSet
Spark API 중에 중요하면서 유사한 RDD, DataFrame 그리고 DataSet에 대해서 공부한 것을 정리했다.
-
[Apache Spark] Spark Architecture
Spark의 Architecture에 대해서 알아보자
-
[Apache Spark] Spark?
빅데이터를 처리할 때 많이 사용한다는 Spark Spark는 어떤 녀석인지 알아보겠다.
-
[Apache HBase] HBase의 아키텍처
HBase가 무엇인지 알아봤으니, HBase의 아키텍처에 대해서 알아보겠다.
-
[Apache HBase] HBase가 무엇일까
우리가 흔히 알고 있는 NoSQL DB하면 떠오르는 DB 중 하나이면서, Hadoop에서 많이 사용되고 있는 HBase는 어떤 녀석일까?
-
[Apache Storm] Storm Concepts
실시간 스트리밍 처리에 사용하는 Apache Storm과 그 Concept에 대해서 공부한 것을 공유한다.
-
[BigData] 데이터 수집 파이프라인과 메시지 중복 제거
메시지 브로커를 포함한 데이터 수집 파이프라인과 함께 메시지 브로커에서 at least once를 통해 메시지가 중복으로 올 때, 이를 어떻게 중복제거를 할지 공부한 것을 정리한다.
-
[BigData] 빅데이터 스트리밍 데이터 수집을 위한 Message Broker
지난 포스트에서 언급하고 말았던, 스트리밍형 데이터의 수집을 위한 Message Broker의 여러가지에 대해 공부한 것을 공유하려 한다.
-
[BigData] 빅데이터의 데이터 수집형태, 벌크와 스트리밍
데이터를 수집할 때 빅데이터에서는 2가지 형태로 데이터를 수집한다. 벌크형태와 스트리밍형태로 이 두가지인데 이 두가지 형태에 대한 수집 방법에 대해 공부한 것을 작성한다.
-
[BigData] 대규모 분산 처리
빅데이터를 다룰 때 대규모 분산 처리를 위해서 프레임워크를 사용한다. 대표적으로 Apache Hadoop과 Apache Spark를 사용한다.
-
[BigData 기초] 4. DB의 지연을 줄이기 위한 노력
데이터양이 나날이 증가함에 따라서 데이터의 집계와 분석에 걸리는 시간은 오래 걸린다. 이런 문제를 해결하기 위한 노력에 대한 것 중 DB와 관련된 것의 일부를 공부했고 그것에 대해 정리해본다.
-
[BigData 기초] 3. 크로스 집계 기본
빅데이터의 기본 크로스 집계 분석에 대해서 공부한 것을 공유한다.
-
[BigData 기초] 2. 데이터 집합체 그리고 데이터의 목적과 분석
DW, Data Mart 그리고 Data Lake와 같은 데이터들을 모아두는 집합체들과 데이터의 목적 그리고 분석방법에 대해 간략히 공부한 것을 공유한다.
-
[BigData 기초] 1. 빅데이터의 특성과 그 기술
첫 회사에서 데이터 엔지니어링의 경험을 하고 빅데이터를 자연스레 접하였지만, 이에 대해 부족함이 있어 공부를 하고 포스팅을 하고자 한다.