본문 바로가기

빅데이터를 지탱하는 기술2

[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-2. [배경] 빅데이터 시대의 데이터 분석 기반 1) 데이터 파이프라인: 차례대로 전달해나가는 데이터로 구성된 시스템 1) 데이터 전송 방법 - 벌크(bulk) 형: 이미 존재하는 데이터 정리해 추출 - 스트리밍(streaming) 형: 차례차례 생성되는 데이터를 계속 보내는 방법 -> 실시간 처리 : 스트림 처리 2) 장기적 데이터 분석, 대량의 데이터 -> 배치 처리 1) 분산 스토리지 - 객체 스토리지 - NoSQL 데이터베이스 1) 분산 데이터 처리 프레임워크 : 데이터 가공해서 외부 데이터베이스 저장 2) 쿼리 엔진, ETL 프로세스 ' 전체 데이터 파이프라인의 동작을 관리하기 위해서 .. 2022. 2. 24.
[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술 1장. 빅데이터의 기초 지식 1-1. [배경] 빅데이터의 정착 1) Hadoop : '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 (분산처리 프레임워크) (2013년 이후 Apache Spark와 같은 새로운 분산 시스템용 프레임워크 보급 -> 맵리듀스보다 효율적) 2) NoSQL : 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다. -> 'NoSQL 데이터베이스에 기록, Hadoop으로 분석 처리' 3) 가속도적으로 늘어나는 데이터 처리 -> Hadoop 비교적 작은 데이터, 또는 중요한 데이터만 -> 데이터 웨어하우스 -> Hadoop에 데이터 처리를 맡김으로써 데이터 웨어하우스의 부하를 줄임. 4) 데이터 처리를 위한 클라우드 서비스 - (2009) Amazon Elastic Map.. 2022. 2. 23.
반응형