1장. 빅데이터의 기초 지식
1-2. [배경] 빅데이터 시대의 데이터 분석 기반
1) 데이터 파이프라인: 차례대로 전달해나가는 데이터로 구성된 시스템
< 데이터 수집 >
1) 데이터 전송 방법
- 벌크(bulk) 형: 이미 존재하는 데이터 정리해 추출
- 스트리밍(streaming) 형: 차례차례 생성되는 데이터를 계속 보내는 방법
-> 실시간 처리 : 스트림 처리
2) 장기적 데이터 분석, 대량의 데이터 -> 배치 처리
< 데이터 저장 >
1) 분산 스토리지
- 객체 스토리지
- NoSQL 데이터베이스
< 데이터 처리 >
1) 분산 데이터 처리 프레임워크
: 데이터 가공해서 외부 데이터베이스 저장
2) 쿼리 엔진, ETL 프로세스
< 워크플로 관리 >'
전체 데이터 파이프라인의 동작을 관리하기 위해서
< 데이터 파이프라인 >
> 기본형: 데이터 웨어하우스 중심
1. 데이터 소스: raw 데이터
2. 데이터 웨어하우스: 장기 보존용으로 정리한 테이블
3. 데이터 마트: 분석용으로 일부를 추출한 테이블 (데이터 시각화에도 사용)
(테이블 설계 후 데이터 투입)
> 데이터 레이크: 모든 데이터 원래 형태로 저장 -> 필요에 따라 가공, 테이블 설계
(빅데이터 시대가 되면서)
1. 데이터 소스: raw 데이터
2. 데이터 레이크: 수집한 로우 데이터 그대로 보존
3. 데이터 마트
* 애드 혹 분석(ad hoc analysis): SQL 쿼리를 직접 작성해 실행 등 일회성 데이터 분석
출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p11~25
'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 (0) | 2022.03.03 |
---|---|
[독서] BI 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.01 |
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 (0) | 2022.02.28 |
[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술 (0) | 2022.02.23 |
댓글