2장. 빅데이터의 탐색
2-1. 크로스 집계의 기본
* 트랜잭션 테이블: 행 방향으로만 증가, 열 방향으로는 데이터를 증가시키지 않는 테이블
(데이터베이스에서 다루기 쉽게)
* 크로스 집계: 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정
1) 피벗 테이블 : 소량 데이터
2) BI 도구 : 수백만 레코드
3) Pandas : 수백만 레코드
4) SQL : 대량 데이터의 크로스 집계 사전 준비, 데이터베이스에서 SQL로 집계 -> 크로스 집계
< 피벗 테이블 >
- 집계 결과를 크로스 테이블에 정리하고 그래프로 시각화한 '피벗 그래프' 기능
: 데이터 시각화 기초
* 룩업 테이블: 테이블을 결합하여 속성 늘리기
데이터 레이크 -> 데이터 마트 -> 크로스 테이블, 대시보드
(수십억 레코드) (수십~수억 레코드) (5~100항목 정도)
1) 데이터 집계의 프로세스 : SQL로 집계
2) 시각화 프로세스 : 시각화 도구로 크로스 집계
> 데이터 집계 -> 데이터 마트 -> 시각화
: 데이터 마트가 작을수록 시각화 간단 But 원래 데이터 포함된 정보 잃게 된다. ( trade-off )
출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p44~56
반응형
'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[독서] 시각화 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.11 |
---|---|
[독서] 데이터 집계 고속화, 빅데이터를 지탱하는 기술 (0) | 2022.03.05 |
[독서] BI 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.01 |
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 (0) | 2022.02.28 |
댓글