basic/python

[python 07] 크롤링(4) - 데이터 처리할때 사용하는 라이브러리 numpy, pandas

못지(Motji) 2021. 8. 26. 15:42

• 처리 : 수집한 정보들을 원하는 데이터만 추출/가공 : 데이터 정제, 저장

numpy

• 수치 데이터를 다루는 패키지

• 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형대수 계산에 주로 사용

• 라이브러리 설치 필요

 

☑ 함수

array() numpy 기능을 사용할 수 있도록 데이터 변환
asarray() asarray로 바꿔주는것
arange() 기존의 range랑 비슷
linspace()  
ligspace()  
shape 크기출력 (행, 열)
ndim 차원

 

pandas

• 데이터 처리를 위한 라이브러리

• 데이터 분석같은 작업에서 필수로 사용, 행과 열로 이루어진 데이터 객체를 만들어 보다 안정적으로 대용량 데이터를 처리하는데 편함

• 행렬로 되어있는 데이터를 다루기 쉬움

• 라이브러리 설치 필요

 

👀 공공데이터
각 정부기관이나 사설기관 등 여러곳에서 데이터를 공개해준다
그 중 많이 사용하는 공공데이터 포털
https://www.data.go.kr/

 

☑ Pandas의 DataFrame [] 연산자
▪ numpy [] : 단일값 추출, 슬라이싱, 인덱싱 등 데이터를 추출기능 : 행의 위치, 열의 위치, 슬라이싱 범위 지정
▪ DataFrame [] : ix[], iloc[], loc[] 통해 동일한 작업가능 : 컬럼명문자, 인덱스로 변환가능한 표현식

∙ ix[] : 더 이상 사용 권고하지 않음 (실행은 됨), [행idx, '컬럼명' 또는 컬럼idx]

∙ iloc[] : 위치기반 인덱싱만 허용 [행idx, 열idx] : 슬라이싱만 가능, 불린인덱싱은 불가능

∙ loc[] : 명칭기반 데이터 추출 [idx 또는 idx명, '컬럼명']

불린 인덱싱

[] ix[] loc[]

∙ 조건 여러개

and : &

or : |

not : ~