1장. 빅데이터의 기초 지식
1-1. [배경] 빅데이터의 정착
1) Hadoop : '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 (분산처리 프레임워크)
(2013년 이후 Apache Spark와 같은 새로운 분산 시스템용 프레임워크 보급 -> 맵리듀스보다 효율적)
2) NoSQL : 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다.
-> 'NoSQL 데이터베이스에 기록, Hadoop으로 분석 처리'
3) 가속도적으로 늘어나는 데이터 처리 -> Hadoop
비교적 작은 데이터, 또는 중요한 데이터만 -> 데이터 웨어하우스
-> Hadoop에 데이터 처리를 맡김으로써 데이터 웨어하우스의 부하를 줄임.
4) 데이터 처리를 위한 클라우드 서비스
- (2009) Amazon Elastic MapReduce : 클라우드를 위한 Hadoop
- (2010) 구글 BigQuery : 데이터 웨어하우스
- (2012) Azure HDInsight : 클라우드를 위한 Hadoop
- (2012) Amazon Redshift : 데이터 웨어하우스
5) 스몰데이터와 빅데이터 처리 기술은 다르다. 이 두 기술을 적재적소에 구사하는 것 중요!
(* 스몰데이터 기준: 수백만 레코드
6) 데이터 디스커버리 (셀프 서비스용 BI 도구)
- 대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스
출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p3~11
반응형
'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 (0) | 2022.03.03 |
---|---|
[독서] BI 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.01 |
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 (0) | 2022.02.28 |
[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술 (0) | 2022.02.24 |
댓글