bs4 的使用
- bs4 就是Beautiful Soup 的简称,这是一个工具箱,通过解析文档为用户提供需要抓取的数据,
- 使用这个不需要在编码的上面考虑,他会自动转换为utf-8编码。
- 但是使用这个的前提的就是网页是完整的,但是现在的网页大多规范化,所以都是可以用的
- 官网: http://beautifulsoup.readthedocs.io/zh_CN/latest/
- bs4 必须使用一种解析器,如果你没有安装其他的HTML解析器,他会默认使用自带的解析器,但是lxml 解析器更加强大,速度更快,推荐安装
- 对于 四种解析器的对比
想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!
对于bs4 有四大对象种类
- Tag
- navigableString
- BeautifulSoup
- Comment
更加细致的编写的方法,可以去官网查看