본문 바로가기

기타11

[독서] 분산 처리 프레임워크, 빅데이터를 지탱하는 기술 3장. 빅데이터의 분산처리 3-1. 대규모 분산 처리의 프레임워크 구조화 데이터와 비구조화 데이터 구조화된 데이터 : 스키마가 명확하게 정의된 데이터 (ex. 테이블) 비구조화 데이터 : 스키마가 없는 데이터 > 스키마리스 데이터 기본 서식은 있지만, 스키마 정의 안 됨. > 데이터 구조화의 파이프라인 테이블 형식으로 열 지향 스토리지 장기 보존 구조화 데이터 중 시간에 따라 증가하는 데이터 -> 팩트 테이블 > 열 지향 스토리지의 작성 분산 스토리지 상에 작성해 효율적으로 데이터를 집계 MPP 데이터베이스 Hadoop : 직접 열 지향 스토리지 형식, 쿼리 엔진 선택 비구조화 데이터 -> 열 지향 스토리지 : 많은 리소스 소비 그래서 Hadoop, Spark 등 분산 처리 프레임워크 필요 Hadoop .. 2022. 4. 13.
[독서] 데이터 마트, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-4. 데이터 마트의 기본 구조 BI 도구로 분석하려면 데이터 마트 필수! 최근: BI 도구와 MPP 데이터베이스를 조합하여 크로스 집계하는 경우 증가 시각화에 적합한 데이터 마트 == 'BI 도구를 위한 비정규화 테이블을 만드는' '트랜잭션' : 시간과 함께 생성되는 데이터를 기록한 것 '마스터' : 트랜잭션에서 참고되는 각종 정보 > in 데이터 웨어하우스 트랜잭션 -> 팩트 테이블 마스터 -> 디멘젼 테이블 스타 스키마 : 팩트 테이블을 중심으로 여러 디멘전 테이블을 결합한 형태 > in 데이터 마트 팩트 테이블을 중심으로 여러 디멘전 테이블을 결합 MPP 데이터베이스 보급 (열 지향 스토리지) -> 칼럼 단위 데이터 저장 -> 칼럼 수가 성능에 영향.. 2022. 4. 11.
[독서] 시각화 도구, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-3. 애드 혹 분석과 시각화 도구 : 수작업 [ (대화형 도구) 'Jupyter Notebook' ] * 시각화 라이브러리: matplotlib - 노트북에서 외부 커맨드 실행 : '!' 로 시작 - 자동화 이전에 노트북으로 하는 애드 혹 분석이 우선 과제. : 정기적인 데이터 처리 : 최신의 집계 결과를 즉시 확인 기대 - 정해진 지표 변화 모니터링 1. Redash SQL에 의한 쿼리의 실행 결과를 그대로 시각화 -> 별도 데이터 마트 필요X But, BI 도구만큼 대량 데이터 처리X 2. Superset 화며상에서 마우스 조작만으로 그래프 만들기 '대화형 대시보드' 3. Kibana Elasticsearch의 프론트 엔드에서 실시.. 2022. 3. 11.
[독서] 데이터 집계 고속화, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-2. 열 지향 스토리지에 의한 고속화 * 3계층 데이터 집계 시스템 데이터 레이크 ——-> 데이터 마트 ———-> 시각화 도구 데이터 집계 크로스 집계 ‘압축’ ‘분산’ 1. ‘압축’ : 열 지향 데이터 베이스 2. ‘분산’ : MPP * MPP ( massive parallel processing : 대규모 병렬 처리 ) ex) Amazon Redshift, Google BigQuery (완전 관리형 서버리스 컴퓨팅 데이터 웨어하우스) : 데이터 집계에 최적화, 데이터 웨어하우스와 데이터 분석용 데이터베이스에서 많이 사용 - 멀티코어 활용하기 - Hadoop 과 함께 사용되는 대화형 쿼리 엔진 1. 행 지.. 2022. 3. 5.
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 2장. 빅데이터의 탐색 2-1. 크로스 집계의 기본 * 트랜잭션 테이블: 행 방향으로만 증가, 열 방향으로는 데이터를 증가시키지 않는 테이블 (데이터베이스에서 다루기 쉽게) * 크로스 집계: 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정 1) 피벗 테이블 : 소량 데이터 2) BI 도구 : 수백만 레코드 3) Pandas : 수백만 레코드 4) SQL : 대량 데이터의 크로스 집계 사전 준비, 데이터베이스에서 SQL로 집계 -> 크로스 집계 - 집계 결과를 크로스 테이블에 정리하고 그래프로 시각화한 '피벗 그래프' 기능 : 데이터 시각화 기초 * 룩업 테이블: 테이블을 결합하여 속성 늘리기 데이터 레이크 -> 데이터 마트 -> 크로스 테이블, 대시보드 (수십억 레코드) (수십~수.. 2022. 3. 3.
[독서] BI 도구, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-4. BI 도구와 모니터링 * 모니터링: 계획적으로 데이터의 변화를 추적해 나가는 것 - 무료: Tableau Public, Quick Sencse, Microsoft Power BI, 구글 Data Studio - 스몰데이터 빠르게 시각화, 애드 혹 분석 등 대화형에서 데이터 시각화하고 싶을 때 편리하다. - 원하는 대로 집계 결과를 얻으려면 '시각화하기 쉬운 데이터'로 만들어야 한다. - 한계 : 제대로 설계된 데이터가 없다면, 자신의 생각과 딱 맞는 화면을 만들 수 없다. 데이터 마트 > 1. BI 도구에서 직접 데이터 소스에 접속 2. 데이터 마트를 준비하고, 그것을 BI 도구로부터 연다. - 장점: 어떤 테이블이라도 .. 2022. 3. 1.
[독서] 데이터 프레임, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-3. [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임 1) 스크립트 언어: 파이썬 1. 컴파일 언어 - 실행 전 소스코드를 컴파일하여 기계어로 변환 후 해당 파일을 실행 - 이미 기계어로 변환된 것을 실행하므로 비교적 빠름 - 문법적 제약이 일반적으로 많음 - 운영체제에 따라 다르게 작업해야 함 2. 스크립트 언어(인터프리터 언어) - 코드를 작성함과 동시에 인터프리터가 기계어로 번역하고 실행함 - 실행 과정 상에 번역 과정이 있어 비교적 느림 - 문법적 제약이 일반적으로 적음 - 운영체제를 신경 쓸 필요 없이 한 번만 작성하면 됨 출처: https://ryusm.tistory.com/105 파이썬 pandas - 장점: 1) 스크립트 .. 2022. 2. 28.
[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-2. [배경] 빅데이터 시대의 데이터 분석 기반 1) 데이터 파이프라인: 차례대로 전달해나가는 데이터로 구성된 시스템 1) 데이터 전송 방법 - 벌크(bulk) 형: 이미 존재하는 데이터 정리해 추출 - 스트리밍(streaming) 형: 차례차례 생성되는 데이터를 계속 보내는 방법 -> 실시간 처리 : 스트림 처리 2) 장기적 데이터 분석, 대량의 데이터 -> 배치 처리 1) 분산 스토리지 - 객체 스토리지 - NoSQL 데이터베이스 1) 분산 데이터 처리 프레임워크 : 데이터 가공해서 외부 데이터베이스 저장 2) 쿼리 엔진, ETL 프로세스 ' 전체 데이터 파이프라인의 동작을 관리하기 위해서 .. 2022. 2. 24.
[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-1. [배경] 빅데이터의 정착 1) Hadoop : '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 (분산처리 프레임워크) (2013년 이후 Apache Spark와 같은 새로운 분산 시스템용 프레임워크 보급 -> 맵리듀스보다 효율적) 2) NoSQL : 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다. -> 'NoSQL 데이터베이스에 기록, Hadoop으로 분석 처리' 3) 가속도적으로 늘어나는 데이터 처리 -> Hadoop 비교적 작은 데이터, 또는 중요한 데이터만 -> 데이터 웨어하우스 -> Hadoop에 데이터 처리를 맡김으로써 데이터 웨어하우스의 부하를 줄임. 4) 데이터 처리를 위한 클라우드 서비스 - (2009) Amazon Elastic Map.. 2022. 2. 23.
[Selenium] 네이버 상영영화 목록 크롤링 Selenium을 활용하여 크롤링 실습을 했습니다. 현재 상영영화 : 네이버 영화 (naver.com) 현재상영작 : 네이버 영화 상영 중 영화의 예매율/평점/좋아요 순 정보 제공. movie.naver.com 1. find_element로 요소 불러오기 - 엑셀 파일로 저장 2. XPATH로 요소 불러오기 2022. 2. 13.
[공부] 데이터 분석 기초부터 딥러닝까지 이수안 컴퓨터 연구소 우선 저는 산업공학부를 전공하며 통계와 빅데이터, 딥러닝 수업을 들어본 경험이 있습니다. 하지만 전공 수업은 대부분 이론 위주로 수업이 이루어졌고 프로젝트 경험이 부족하다고 느꼈습니다. 개념은 알고 있지만 이를 활용하는 데 자신감이 없어 공모전을 참가하는 것에도 망설여졌습니다. 이미 전공에서 배운 내용이지만 부족함을 채우기 위해 우선 개념 + 실습이 있는 강의로 복습하려고 합니다. 그 다음 공공데이터와 kaggle 데이터를 이용한 분석을 이어나갈 것입니다! 기회가 된다면 데이터분석 스터디를 만들어서 매주 데이터를 선정해서 각자 자신의 백그라운드를 바탕으로 분석을 발표하고 의견을 나누고 공모전과 kaggle 대회도 나가는 같이 성장하는 스터디를 만드는 목표를 .. 2022. 1. 17.
반응형