이전 포스트에서 DW와 Data Lake를 간단하게 서로 비교해보았었으니

기존의 데이터 웨어하우스(DW)에서 왜 Data Lake로 트렌드가 변하고 있는지 공부한 것을 정리하려 한다.

기존의 DW에는 이전 포스트에서 설명했듯이 정형 데이터가 저장이 된다. 즉, 스키마가 있는 형태의 데이터가 저장이 되는 형태다.

그러나 요즈음은 비정형 데이터가 더욱 많다. 예를 들면 소셜 미디어, 이미지, 동영상 등등 말이다.

물론 DW를 활용해서도 이들을 처리했을 것이다. 그러나 데이터가 점점 늘어나고 이 데이터를 수집해서 활용하려는 요구사항이 더 늘어나고 있으며 데이터 기반의 의사결정을 하려는 추세가 더 뚜렷히 나타나기 때문이다.

그러다보니 기존의 ETL와 DW로는 이 데이터들을 관리하는데 한계가 있다.

그러다보니 Data Lake라는 새로운 개념을 통해 기존의 DW + 비정형 데이터 들을 실시간으로 모으고 정제하여 통합하려는 것이다.

그래서 Data Lake를 보면 빅데이터 기반이 대부분이다. 보통 Hadoop의 HDFS와 HBase 를 사용하는 것 같다.

그런데 이런 것들을 기존에 DW를 통해 잘해왔고 충분히 할 수 있을 거 같은데 굳이 Data Lake로 넘어가려는 이유가 무엇일까?

일단 관리 리소스가 많이 들 것이며 이런 비정형 데이터를 정형 데이터로 바꾸어 스키마 형태로 저장해야되는데, 이렇게 스키마 형태로 저장이 되면 다양한 형태로 데이터를 분석하기에 더 어려움이 있을 것이다.

새로운 요구사항이 나와 새로운 모델로 분석을 하려면 DW에서는 그 모델들에 대응하는 스키마들을 만들어야 되고 변경이 일어나면 이를 또 반영하여야 한다. 이것은 기존 DW와 단짝이던 ETL(Extract Transform Load)의 한계이기도 할 것이다.

그렇다면 Data Lake에서는 이것이 쉬운가? Data Lake는 비정형 데이터, 데이터를 원본 그대로 저장함으로써 사용자로 하여금 원하는 방식으로 변경할 수 있는 ELT(Extract Load Transform)를 활용하여 원하는 대로 사용할 수 있다.

원본 데이터가 그대로 있으니 사용자마다 요구사항을 일일히 반영할 필요 없이 원하는대로 만들어서 볼 수 있는 것이다. 이것이 Data Lake와 ELT를 이용하여 기존의 DW + ETL의 한계를 극복하는 것이다.


포스트에 대한 피드백이 있으시다면 여기로 메일 부탁드립니다. 읽어주셔서 감사합니다.