본문 바로가기
기타/[책] 빅데이터를 지탱하는 기술

[독서] 크로스 집계, 빅데이터를 지탱하는 기술

by HelloJudy 2022. 3. 3.

2장. 빅데이터의 탐색

2-1. 크로스 집계의 기본

* 트랜잭션 테이블: 행 방향으로만 증가, 열 방향으로는 데이터를 증가시키지 않는 테이블
(데이터베이스에서 다루기 쉽게)

* 크로스 집계: 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정
1) 피벗 테이블 : 소량 데이터
2) BI 도구 : 수백만 레코드
3) Pandas : 수백만 레코드
4) SQL : 대량 데이터의 크로스 집계 사전 준비, 데이터베이스에서 SQL로 집계 -> 크로스 집계

< 피벗 테이블 >
- 집계 결과를 크로스 테이블에 정리하고 그래프로 시각화한 '피벗 그래프' 기능
: 데이터 시각화 기초

* 룩업 테이블: 테이블을 결합하여 속성 늘리기

데이터 레이크 -> 데이터 마트 -> 크로스 테이블, 대시보드
(수십억 레코드) (수십~수억 레코드) (5~100항목 정도)

1) 데이터 집계의 프로세스 : SQL로 집계
2) 시각화 프로세스 : 시각화 도구로 크로스 집계

> 데이터 집계 -> 데이터 마트 -> 시각화
: 데이터 마트가 작을수록 시각화 간단 But 원래 데이터 포함된 정보 잃게 된다. ( trade-off )


출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p44~56

반응형

댓글