BeautifulSoup
☑ 파싱하기
1. import
from bs4 import BeautifulSoup
2. html, parder를 주어 파싱
∙ 문자열을 원하는 형태로 바꿔준다.
∙ 어떤 타입으로 변환하고 싶은지 프로그램 소도구가 필요하다. parser를 던져줘야함
☑ 파서의 종류
▪ lxml (HTML parser)
▸ BeautifulSoup(html, 'lxml')
∙ 특징 : C언어로 구현되어 있어 속도가 빠름, 별도의 라이브러리 설치 필요
▪ lxml (XML parser)
▸ BeautifulSoup(html, 'lxml-xml')
∙ 특징 : xml로 파싱
▪ html5lib
▸ BeautifulSoup(html, 'html5lib')
∙ 특징 : 파싱하는 속도가 매우 느림, 별도의 라이브러리 설치 필요
▪ html.parser
▸BeautifulSoup(html, 'html.parser')
∙ 특징 : 적당한 속도, 라이브러리 추가 필요없고 바로 사용가능
** 데이터의 양이 많아지면 속도의 차이가 있음
'basic > python' 카테고리의 다른 글
| python 05 [실습02] - find_all(), select() 함수 사용하여 원하는 태그 찾기 (0) | 2021.08.24 |
|---|---|
| python 05 [실습01] 파싱하기, 태그접근하기 (0) | 2021.08.24 |
| python 04 [실습] 크롤링 (0) | 2021.08.23 |
| [python 04] 예외처리, 크롤링 (0) | 2021.08.19 |
| [python 03] 제어문, 함수, 변수의 Scope (0) | 2021.08.18 |