1장. 빅데이터의 기초 지식
1-3. [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임
1) 스크립트 언어: 파이썬
1. 컴파일 언어
- 실행 전 소스코드를 컴파일하여 기계어로 변환 후 해당 파일을 실행
- 이미 기계어로 변환된 것을 실행하므로 비교적 빠름
- 문법적 제약이 일반적으로 많음
- 운영체제에 따라 다르게 작업해야 함
2. 스크립트 언어(인터프리터 언어)
- 코드를 작성함과 동시에 인터프리터가 기계어로 번역하고 실행함
- 실행 과정 상에 번역 과정이 있어 비교적 느림
- 문법적 제약이 일반적으로 적음
- 운영체제를 신경 쓸 필요 없이 한 번만 작성하면 됨
출처: https://ryusm.tistory.com/105
< 데이터 프레임 > 파이썬 pandas
- 장점: 1) 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다.
2) JSON 데이터나 텍스트 데이터 등도 한 번 데이터 프레임으로 변환해 버리면, 사용하기 쉽다.
3) 대화형 데이터 처리
- pandas는 분산 시스템이 아니기 때문에 스몰 데이터를 취급할 때 적합하다.
애드 혹 데이터 분석의 효율성을 위해 데이터 양을 감소시킨 후, 처리하는 것도 하나의 방법이다.
1) 웹 서버의 엑세스 로그
-> 바로 데이터 웨어하우스와 BI 도구로 읽을 수 없다.
-> 정규 표현식으로 파싱, 칼럼 명 지정, 데이터 프레임 변환, 데이터 가공, CSV 파일로 보존, BI 도구로 시각화
* 데이터 전처리에 사용할 수 있는 pandas 함수
이름 | 설명 |
ix | 조건에 일치하는 데이터만을 검색한다. |
drop | 지정한 행(혹은 칼럼)을 삭제한다. |
rename | 인덱스 값(혹은 칼럼명)을 변경한다. |
dropna | 값이 없는 행(혹은 칼럼명)을 제외한다. |
fillna | 값이 없는 셀을 지정한 값으로 치환한다. |
apply | 각 칼럼(혹은 각 행)에 함수를 적용한다. |
( ix 함수는 처음 알게 되어 검색해본 결과 레이블과 위치 정수 모두 사용 가능하지만 사용하는 것이 지양된다)
2) 데이터 프레임으로 활용
- 복잡한 데이터 집계에서는 SQL을 사용하면서 데이터 프레임에 의한 대화형 데이터 처리의 혜택을 받을 수 있다.
- 파이썬에서 데이터베이스에 접속하고 쿼리를 실행해서 데이터 프레임으로 변환 가능
- 데이터를 집계하는 부분에서는 데이터 웨어하우스나 데이터 레이크를 이용 -> 데이터 프레임 변환 -> 대화형 데이터를 확인하고 가공할 수 있다.
출처: 니시다 케이스케, 「빅데이터를 지탱하는 기술」, 제이펍, 2018, p26~33
'기타 > [책] 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[독서] 크로스 집계, 빅데이터를 지탱하는 기술 (0) | 2022.03.03 |
---|---|
[독서] BI 도구, 빅데이터를 지탱하는 기술 (0) | 2022.03.01 |
[독서] 데이터 파이프라인 기초, 빅데이터를 지탱하는 기술 (0) | 2022.02.24 |
[독서] Hadoop과 NoSQL, 빅데이터를 지탱하는 기술 (0) | 2022.02.23 |
댓글