[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술

1-1. [배경] 빅데이터의 정착

1) Hadoop : '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 (분산처리 프레임워크)

(2013년 이후 Apache Spark와 같은 새로운 분산 시스템용 프레임워크 보급 -> 맵리듀스보다 효율적)

2) NoSQL : 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다.

-> 'NoSQL 데이터베이스에 기록, Hadoop으로 분석 처리'

3) 가속도적으로 늘어나는 데이터 처리 -> Hadoop

비교적 작은 데이터, 또는 중요한 데이터만 -> 데이터 웨어하우스

-> Hadoop에 데이터 처리를 맡김으로써 데이터 웨어하우스의 부하를 줄임.

4) 데이터 처리를 위한 클라우드 서비스

- (2009) Amazon Elastic MapReduce : 클라우드를 위한 Hadoop

- (2010) 구글 BigQuery : 데이터 웨어하우스

- (2012) Azure HDInsight : 클라우드를 위한 Hadoop

- (2012) Amazon Redshift : 데이터 웨어하우스

5) 스몰데이터와 빅데이터 처리 기술은 다르다. 이 두 기술을 적재적소에 구사하는 것 중요!

(* 스몰데이터 기준: 수백만 레코드

6) 데이터 디스커버리 (셀프 서비스용 BI 도구)

- 대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스

출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p3~11

이번 생은 처음이라