본문 바로가기

기타/[책] 빅데이터를 지탱하는 기술9

[독서] 분산 처리 프레임워크, 빅데이터를 지탱하는 기술 3장. 빅데이터의 분산처리 3-1. 대규모 분산 처리의 프레임워크 구조화 데이터와 비구조화 데이터 구조화된 데이터 : 스키마가 명확하게 정의된 데이터 (ex. 테이블) 비구조화 데이터 : 스키마가 없는 데이터 > 스키마리스 데이터 기본 서식은 있지만, 스키마 정의 안 됨. > 데이터 구조화의 파이프라인 테이블 형식으로 열 지향 스토리지 장기 보존 구조화 데이터 중 시간에 따라 증가하는 데이터 -> 팩트 테이블 > 열 지향 스토리지의 작성 분산 스토리지 상에 작성해 효율적으로 데이터를 집계 MPP 데이터베이스 Hadoop : 직접 열 지향 스토리지 형식, 쿼리 엔진 선택 비구조화 데이터 -> 열 지향 스토리지 : 많은 리소스 소비 그래서 Hadoop, Spark 등 분산 처리 프레임워크 필요 Hadoop .. 2022. 4. 13.
[독서] 데이터 마트, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-4. 데이터 마트의 기본 구조 BI 도구로 분석하려면 데이터 마트 필수! 최근: BI 도구와 MPP 데이터베이스를 조합하여 크로스 집계하는 경우 증가 시각화에 적합한 데이터 마트 == 'BI 도구를 위한 비정규화 테이블을 만드는' '트랜잭션' : 시간과 함께 생성되는 데이터를 기록한 것 '마스터' : 트랜잭션에서 참고되는 각종 정보 > in 데이터 웨어하우스 트랜잭션 -> 팩트 테이블 마스터 -> 디멘젼 테이블 스타 스키마 : 팩트 테이블을 중심으로 여러 디멘전 테이블을 결합한 형태 > in 데이터 마트 팩트 테이블을 중심으로 여러 디멘전 테이블을 결합 MPP 데이터베이스 보급 (열 지향 스토리지) -> 칼럼 단위 데이터 저장 -> 칼럼 수가 성능에 영향.. 2022. 4. 11.
[독서] 시각화 도구, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-3. 애드 혹 분석과 시각화 도구 : 수작업 [ (대화형 도구) 'Jupyter Notebook' ] * 시각화 라이브러리: matplotlib - 노트북에서 외부 커맨드 실행 : '!' 로 시작 - 자동화 이전에 노트북으로 하는 애드 혹 분석이 우선 과제. : 정기적인 데이터 처리 : 최신의 집계 결과를 즉시 확인 기대 - 정해진 지표 변화 모니터링 1. Redash SQL에 의한 쿼리의 실행 결과를 그대로 시각화 -> 별도 데이터 마트 필요X But, BI 도구만큼 대량 데이터 처리X 2. Superset 화며상에서 마우스 조작만으로 그래프 만들기 '대화형 대시보드' 3. Kibana Elasticsearch의 프론트 엔드에서 실시.. 2022. 3. 11.
[독서] 데이터 집계 고속화, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-2. 열 지향 스토리지에 의한 고속화 * 3계층 데이터 집계 시스템 데이터 레이크 ——-> 데이터 마트 ———-> 시각화 도구 데이터 집계 크로스 집계 ‘압축’ ‘분산’ 1. ‘압축’ : 열 지향 데이터 베이스 2. ‘분산’ : MPP * MPP ( massive parallel processing : 대규모 병렬 처리 ) ex) Amazon Redshift, Google BigQuery (완전 관리형 서버리스 컴퓨팅 데이터 웨어하우스) : 데이터 집계에 최적화, 데이터 웨어하우스와 데이터 분석용 데이터베이스에서 많이 사용 - 멀티코어 활용하기 - Hadoop 과 함께 사용되는 대화형 쿼리 엔진 1. 행 지.. 2022. 3. 5.
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-1. 크로스 집계의 기본 * 트랜잭션 테이블: 행 방향으로만 증가, 열 방향으로는 데이터를 증가시키지 않는 테이블 (데이터베이스에서 다루기 쉽게) * 크로스 집계: 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정 1) 피벗 테이블 : 소량 데이터 2) BI 도구 : 수백만 레코드 3) Pandas : 수백만 레코드 4) SQL : 대량 데이터의 크로스 집계 사전 준비, 데이터베이스에서 SQL로 집계 -> 크로스 집계 - 집계 결과를 크로스 테이블에 정리하고 그래프로 시각화한 '피벗 그래프' 기능 : 데이터 시각화 기초 * 룩업 테이블: 테이블을 결합하여 속성 늘리기 데이터 레이크 -> 데이터 마트 -> 크로스 테이블, 대시보드 (수십억 레코드) (수십~수.. 2022. 3. 3.
[독서] BI 도구, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-4. BI 도구와 모니터링 * 모니터링: 계획적으로 데이터의 변화를 추적해 나가는 것 - 무료: Tableau Public, Quick Sencse, Microsoft Power BI, 구글 Data Studio - 스몰데이터 빠르게 시각화, 애드 혹 분석 등 대화형에서 데이터 시각화하고 싶을 때 편리하다. - 원하는 대로 집계 결과를 얻으려면 '시각화하기 쉬운 데이터'로 만들어야 한다. - 한계 : 제대로 설계된 데이터가 없다면, 자신의 생각과 딱 맞는 화면을 만들 수 없다. 데이터 마트 > 1. BI 도구에서 직접 데이터 소스에 접속 2. 데이터 마트를 준비하고, 그것을 BI 도구로부터 연다. - 장점: 어떤 테이블이라도 .. 2022. 3. 1.
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-3. [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임 1) 스크립트 언어: 파이썬 1. 컴파일 언어 - 실행 전 소스코드를 컴파일하여 기계어로 변환 후 해당 파일을 실행 - 이미 기계어로 변환된 것을 실행하므로 비교적 빠름 - 문법적 제약이 일반적으로 많음 - 운영체제에 따라 다르게 작업해야 함 2. 스크립트 언어(인터프리터 언어) - 코드를 작성함과 동시에 인터프리터가 기계어로 번역하고 실행함 - 실행 과정 상에 번역 과정이 있어 비교적 느림 - 문법적 제약이 일반적으로 적음 - 운영체제를 신경 쓸 필요 없이 한 번만 작성하면 됨 출처: https://ryusm.tistory.com/105 파이썬 pandas - 장점: 1) 스크립트 .. 2022. 2. 28.
[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-2. [배경] 빅데이터 시대의 데이터 분석 기반 1) 데이터 파이프라인: 차례대로 전달해나가는 데이터로 구성된 시스템 1) 데이터 전송 방법 - 벌크(bulk) 형: 이미 존재하는 데이터 정리해 추출 - 스트리밍(streaming) 형: 차례차례 생성되는 데이터를 계속 보내는 방법 -> 실시간 처리 : 스트림 처리 2) 장기적 데이터 분석, 대량의 데이터 -> 배치 처리 1) 분산 스토리지 - 객체 스토리지 - NoSQL 데이터베이스 1) 분산 데이터 처리 프레임워크 : 데이터 가공해서 외부 데이터베이스 저장 2) 쿼리 엔진, ETL 프로세스 ' 전체 데이터 파이프라인의 동작을 관리하기 위해서 .. 2022. 2. 24.
[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-1. [배경] 빅데이터의 정착 1) Hadoop : '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 (분산처리 프레임워크) (2013년 이후 Apache Spark와 같은 새로운 분산 시스템용 프레임워크 보급 -> 맵리듀스보다 효율적) 2) NoSQL : 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다. -> 'NoSQL 데이터베이스에 기록, Hadoop으로 분석 처리' 3) 가속도적으로 늘어나는 데이터 처리 -> Hadoop 비교적 작은 데이터, 또는 중요한 데이터만 -> 데이터 웨어하우스 -> Hadoop에 데이터 처리를 맡김으로써 데이터 웨어하우스의 부하를 줄임. 4) 데이터 처리를 위한 클라우드 서비스 - (2009) Amazon Elastic Map.. 2022. 2. 23.
반응형