[독서] 크로스 집계, 빅데이터를 지탱하는 기술

2장. 빅데이터의 탐색

2-1. 크로스 집계의 기본

* 트랜잭션 테이블: 행 방향으로만 증가, 열 방향으로는 데이터를 증가시키지 않는 테이블
(데이터베이스에서 다루기 쉽게)

* 크로스 집계: 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정
1) 피벗 테이블 : 소량 데이터
2) BI 도구 : 수백만 레코드
3) Pandas : 수백만 레코드
4) SQL : 대량 데이터의 크로스 집계 사전 준비, 데이터베이스에서 SQL로 집계 -> 크로스 집계

< 피벗 테이블 >
- 집계 결과를 크로스 테이블에 정리하고 그래프로 시각화한 '피벗 그래프' 기능
: 데이터 시각화 기초

* 룩업 테이블: 테이블을 결합하여 속성 늘리기

데이터 레이크 -> 데이터 마트 -> 크로스 테이블, 대시보드
(수십억 레코드) (수십~수억 레코드) (5~100항목 정도)

1) 데이터 집계의 프로세스 : SQL로 집계
2) 시각화 프로세스 : 시각화 도구로 크로스 집계

> 데이터 집계 -> 데이터 마트 -> 시각화
: 데이터 마트가 작을수록 시각화 간단 But 원래 데이터 포함된 정보 잃게 된다. ( trade-off )

출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p44~56

'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글

[독서] 시각화 도구, 빅데이터를 지탱하는 기술 (0)	2022.03.11
[독서] 데이터 집계 고속화, 빅데이터를 지탱하는 기술 (1)	2022.03.05
[독서] BI 도구, 빅데이터를 지탱하는 기술 (0)	2022.03.01
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 (0)	2022.02.28

이번 생은 처음이라

[독서] 크로스 집계, 빅데이터를 지탱하는 기술

2장. 빅데이터의 탐색

'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글

댓글

티스토리툴바

[독서] 크로스 집계, 빅데이터를 지탱하는 기술

2장. 빅데이터의 탐색

'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글

관련글

댓글

티스토리툴바