autoscraper网络刮板模块总结
- requests——最普遍使用的爬虫库
- you_get——最受欢迎的爬虫库
- autoscraper——最智能的爬虫库
- urllib——最底层的爬虫库
- Httpx ——支持异步与Http2.0协议的爬虫库
# 首先安装autoscraper,目前只支持python3
# 使用 pip 从 git 仓库安装最新版本
# pip install git+https://github.com/alirezamika/autoscraper.git
# 下载源码安装
# python setup.py install
# 从 PyPI 安装(推荐)
# pip install autoscraper
实例1
from autoscraper import AutoScraper
url = 'https://stackoverflow.com/questions/2081586/web-scraping-with-python'
# We can add one or multiple candidates here.
# You can also put urls here to retrieve urls.
wanted_list = ["What are metaclasses in Python?"]
scraper = AutoScraper()
result = scraper.build(url, wanted_list)
for i in result:
print(i)
案例2
关注打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?