basic/python
[python 07] 크롤링(4) - 데이터 처리할때 사용하는 라이브러리 numpy, pandas
못지(Motji)
2021. 8. 26. 15:42
• 처리 : 수집한 정보들을 원하는 데이터만 추출/가공 : 데이터 정제, 저장
numpy
• 수치 데이터를 다루는 패키지
• 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형대수 계산에 주로 사용
• 라이브러리 설치 필요
☑ 함수
array() | numpy 기능을 사용할 수 있도록 데이터 변환 |
asarray() | asarray로 바꿔주는것 |
arange() | 기존의 range랑 비슷 |
linspace() | |
ligspace() | |
shape | 크기출력 (행, 열) |
ndim | 차원 |
pandas
• 데이터 처리를 위한 라이브러리
• 데이터 분석같은 작업에서 필수로 사용, 행과 열로 이루어진 데이터 객체를 만들어 보다 안정적으로 대용량 데이터를 처리하는데 편함
• 행렬로 되어있는 데이터를 다루기 쉬움
• 라이브러리 설치 필요
👀 공공데이터
각 정부기관이나 사설기관 등 여러곳에서 데이터를 공개해준다
그 중 많이 사용하는 공공데이터 포털
https://www.data.go.kr/
☑ Pandas의 DataFrame [] 연산자
▪ numpy [] : 단일값 추출, 슬라이싱, 인덱싱 등 데이터를 추출기능 : 행의 위치, 열의 위치, 슬라이싱 범위 지정
▪ DataFrame [] : ix[], iloc[], loc[] 통해 동일한 작업가능 : 컬럼명문자, 인덱스로 변환가능한 표현식
∙ ix[] : 더 이상 사용 권고하지 않음 (실행은 됨), [행idx, '컬럼명' 또는 컬럼idx]
∙ iloc[] : 위치기반 인덱싱만 허용 [행idx, 열idx] : 슬라이싱만 가능, 불린인덱싱은 불가능
∙ loc[] : 명칭기반 데이터 추출 [idx 또는 idx명, '컬럼명']
▪ 불린 인덱싱
[] ix[] loc[]
∙ 조건 여러개
and : &
or : |
not : ~