본문 바로가기
기타/[책] 빅데이터를 지탱하는 기술

[독서] 데이터 프레임, 빅데이터를 지탱하는 기술

by HelloJudy 2022. 2. 28.

1장. 빅데이터의 기초 지식

1-3. [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임

 

 

1) 스크립트 언어: 파이썬

1. 컴파일 언어
  - 실행 전 소스코드를 컴파일하여 기계어로 변환 후 해당 파일을 실행
  - 이미 기계어로 변환된 것을 실행하므로 비교적 빠름
  - 문법적 제약이 일반적으로 많음
  - 운영체제에 따라 다르게 작업해야 함

2. 스크립트 언어(인터프리터 언어)
  - 코드를 작성함과 동시에 인터프리터가 기계어로 번역하고 실행함
  - 실행 과정 상에 번역 과정이 있어 비교적 느림
  - 문법적 제약이 일반적으로 적음
  - 운영체제를 신경 쓸 필요 없이 한 번만 작성하면 됨

출처: https://ryusm.tistory.com/105

 

< 데이터 프레임 >  파이썬 pandas

 

- 장점: 1) 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다.

          2) JSON 데이터나 텍스트 데이터 등도 한 번 데이터 프레임으로 변환해 버리면, 사용하기 쉽다.

          3) 대화형 데이터 처리

- pandas는 분산 시스템이 아니기 때문에 스몰 데이터를 취급할 때 적합하다.

  애드 혹 데이터 분석의 효율성을 위해 데이터 양을 감소시킨 후, 처리하는 것도 하나의 방법이다.

 

 

1) 웹 서버의 엑세스 로그

-> 바로 데이터 웨어하우스와 BI 도구로 읽을 수 없다.

-> 정규 표현식으로 파싱, 칼럼 명 지정, 데이터 프레임 변환, 데이터 가공, CSV 파일로 보존, BI 도구로 시각화

 

* 데이터 전처리에 사용할 수 있는 pandas 함수

이름 설명
ix 조건에 일치하는 데이터만을 검색한다.
drop 지정한 행(혹은 칼럼)을 삭제한다.
rename 인덱스 값(혹은 칼럼명)을 변경한다.
dropna 값이 없는 행(혹은 칼럼명)을 제외한다.
fillna 값이 없는 셀을 지정한 값으로 치환한다.
apply 각 칼럼(혹은 각 행)에 함수를 적용한다.

( ix 함수는 처음 알게 되어 검색해본 결과 레이블과 위치 정수 모두 사용 가능하지만 사용하는 것이 지양된다)

 

 

2) 데이터 프레임으로 활용

- 복잡한 데이터 집계에서는 SQL을 사용하면서 데이터 프레임에 의한 대화형 데이터 처리의 혜택을 받을 수 있다.

- 파이썬에서 데이터베이스에 접속하고 쿼리를 실행해서 데이터 프레임으로 변환 가능

- 데이터를 집계하는 부분에서는 데이터 웨어하우스나 데이터 레이크를 이용 -> 데이터 프레임 변환 -> 대화형 데이터를 확인하고 가공할 수 있다.

 


출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p26~33

 

 

반응형

댓글