2장. 빅데이터의 탐색
2-4. 데이터 마트의 기본 구조
BI 도구로 분석하려면 데이터 마트 필수!
최근: BI 도구와 MPP 데이터베이스를 조합하여 크로스 집계하는 경우 증가
시각화에 적합한 데이터 마트 == 'BI 도구를 위한 비정규화 테이블을 만드는'
< 테이블 비정규화 >
- '트랜잭션' : 시간과 함께 생성되는 데이터를 기록한 것
- '마스터' : 트랜잭션에서 참고되는 각종 정보
> in 데이터 웨어하우스
- 트랜잭션 -> 팩트 테이블
- 마스터 -> 디멘젼 테이블
스타 스키마 : 팩트 테이블을 중심으로 여러 디멘전 테이블을 결합한 형태
> in 데이터 마트
팩트 테이블을 중심으로 여러 디멘전 테이블을 결합
MPP 데이터베이스 보급 (열 지향 스토리지) -> 칼럼 단위 데이터 저장 -> 칼럼 수가 성능에 영향X -> 스타 스키마에서 좀 더 비정규화 -> 모든 테이블을 결합한 팩트 테이블 (비정규화 테이블)
< 정리 >
데이터 마트는 비정규화 테이블로 만드는 것
데이터 웨어하우스에서는 스타 스키마가 우수하다.
< 테이블 추상화 >
'다차원 모델'에 의해 추상화
다차원 모델
- 디멘젼: 크로스 집계에 있어 행과 열을 이용하는 것
- 측정값: 숫자 데이터와 그 집계 방법을 정의하는 것
BI 도구를 이용한 데이터의 시각화 절차
- 시각화하고 싶은 측정값 및 디멘전 결정 ( ex. 측정값: 금액, 디멘전: 판매일과 상품명 )
- 데이터 마트에서 비정규화 테이블을 만들고 그것을 BI 도구로 시각화한다.
- 그리고 이후에 그룹으로 분류해서 집계하고 싶어졌다. -> 비정규화 테이블에 새로운 칼럼을 추가하고 거기에 제품 그룹을 써넣는다.
다차원 모델의 정의는 나중에 확장할 수 있다.
출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p77~86
반응형
'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[독서] 분산 처리 프레임워크, 빅데이터를 지탱하는 기술 (0) | 2022.04.13 |
---|---|
[독서] 시각화 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.11 |
[독서] 데이터 집계 고속화, 빅데이터를 지탱하는 기술 (0) | 2022.03.05 |
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 (0) | 2022.03.03 |
댓글