• 처리 : 수집한 정보들을 원하는 데이터만 추출/가공 : 데이터 정제, 저장
numpy
• 수치 데이터를 다루는 패키지
• 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형대수 계산에 주로 사용
• 라이브러리 설치 필요
☑ 함수
| array() | numpy 기능을 사용할 수 있도록 데이터 변환 |
| asarray() | asarray로 바꿔주는것 |
| arange() | 기존의 range랑 비슷 |
| linspace() | |
| ligspace() | |
| shape | 크기출력 (행, 열) |
| ndim | 차원 |
pandas
• 데이터 처리를 위한 라이브러리
• 데이터 분석같은 작업에서 필수로 사용, 행과 열로 이루어진 데이터 객체를 만들어 보다 안정적으로 대용량 데이터를 처리하는데 편함
• 행렬로 되어있는 데이터를 다루기 쉬움
• 라이브러리 설치 필요
👀 공공데이터
각 정부기관이나 사설기관 등 여러곳에서 데이터를 공개해준다
그 중 많이 사용하는 공공데이터 포털
https://www.data.go.kr/
☑ Pandas의 DataFrame [] 연산자
▪ numpy [] : 단일값 추출, 슬라이싱, 인덱싱 등 데이터를 추출기능 : 행의 위치, 열의 위치, 슬라이싱 범위 지정
▪ DataFrame [] : ix[], iloc[], loc[] 통해 동일한 작업가능 : 컬럼명문자, 인덱스로 변환가능한 표현식
∙ ix[] : 더 이상 사용 권고하지 않음 (실행은 됨), [행idx, '컬럼명' 또는 컬럼idx]
∙ iloc[] : 위치기반 인덱싱만 허용 [행idx, 열idx] : 슬라이싱만 가능, 불린인덱싱은 불가능
∙ loc[] : 명칭기반 데이터 추출 [idx 또는 idx명, '컬럼명']
▪ 불린 인덱싱
[] ix[] loc[]
∙ 조건 여러개
and : &
or : |
not : ~
'basic > python' 카테고리의 다른 글
| [python 08] 크롤링(5) 시각화, oracle db 연동 (0) | 2021.08.27 |
|---|---|
| [python 06] 크롤링(3) - Selenium 셀레늄 (0) | 2021.08.25 |
| python 05 [실습03] 네이버뉴스 크롤링 (0) | 2021.08.24 |
| python 05 [실습02] - find_all(), select() 함수 사용하여 원하는 태그 찾기 (0) | 2021.08.24 |
| python 05 [실습01] 파싱하기, 태그접근하기 (0) | 2021.08.24 |