본문 바로가기
기타/[책] 빅데이터를 지탱하는 기술

[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술

by HelloJudy 2022. 2. 24.

1장. 빅데이터의 기초 지식

1-2. [배경] 빅데이터 시대의 데이터 분석 기반

 

 

1) 데이터 파이프라인: 차례대로 전달해나가는 데이터로 구성된 시스템

 

< 데이터 수집 >

1) 데이터 전송 방법

  - 벌크(bulk) 형: 이미 존재하는 데이터 정리해 추출

  - 스트리밍(streaming) 형: 차례차례 생성되는 데이터를 계속 보내는 방법

  -> 실시간 처리 : 스트림 처리

2) 장기적 데이터 분석, 대량의 데이터 -> 배치 처리

 

< 데이터 저장 >

1) 분산 스토리지

  - 객체 스토리지

  - NoSQL 데이터베이스

 

< 데이터 처리 >

1) 분산 데이터 처리 프레임워크

 : 데이터 가공해서 외부 데이터베이스 저장

2) 쿼리 엔진, ETL 프로세스

 

< 워크플로 관리 >'

전체 데이터 파이프라인의 동작을 관리하기 위해서

 

< 데이터 파이프라인 >

> 기본형: 데이터 웨어하우스 중심

1. 데이터 소스: raw 데이터

2. 데이터 웨어하우스: 장기 보존용으로 정리한 테이블

3. 데이터 마트: 분석용으로 일부를 추출한 테이블 (데이터 시각화에도 사용)

(테이블 설계 후 데이터 투입)

 

> 데이터 레이크: 모든 데이터 원래 형태로 저장 -> 필요에 따라 가공, 테이블 설계

(빅데이터 시대가 되면서)

1. 데이터 소스: raw 데이터

2. 데이터 레이크: 수집한 로우 데이터 그대로 보존

3. 데이터 마트

 

* 애드 혹 분석(ad hoc analysis): SQL 쿼리를 직접 작성해 실행 등 일회성 데이터 분석

 


출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p11~25

 

반응형

댓글