basic/python
[python 05] - 크롤링(2) 파싱
못지(Motji)
2021. 8. 24. 13:28
BeautifulSoup
☑ 파싱하기
1. import
from bs4 import BeautifulSoup
2. html, parder를 주어 파싱
∙ 문자열을 원하는 형태로 바꿔준다.
∙ 어떤 타입으로 변환하고 싶은지 프로그램 소도구가 필요하다. parser를 던져줘야함
☑ 파서의 종류
▪ lxml (HTML parser)
▸ BeautifulSoup(html, 'lxml')
∙ 특징 : C언어로 구현되어 있어 속도가 빠름, 별도의 라이브러리 설치 필요
▪ lxml (XML parser)
▸ BeautifulSoup(html, 'lxml-xml')
∙ 특징 : xml로 파싱
▪ html5lib
▸ BeautifulSoup(html, 'html5lib')
∙ 특징 : 파싱하는 속도가 매우 느림, 별도의 라이브러리 설치 필요
▪ html.parser
▸BeautifulSoup(html, 'html.parser')
∙ 특징 : 적당한 속도, 라이브러리 추가 필요없고 바로 사용가능
** 데이터의 양이 많아지면 속도의 차이가 있음