微博语料库是一个巨大且珍贵的中文语料资源,在舆情监控、商业分析、兴趣挖掘等诸多领域都有广泛的应用。而获取微博语料库的方法就是构建一个稳定高效微博语料抓取系统。
本次 Chat 首先会带着大家分析微博 PC 端/移动端各个站点的实际情况,以及能够抓取的数据维度,随后会逐个分析微博每个站点的登陆方案,并基于此构建微博账号池。最后介绍 Scrapy 爬虫框架,结合 Redis 技术,构建分布式的微博数据抓取系统,实现单机每日 1kw+ 的语料抓取。
通过本场 Chat 您将学习到:
- Selenium 自动化框架,并基于该框架自动实现网站的登陆;
- 滑块验证码、字母验证码的破解方案;
- Scrapy 框架的简单入门;
- 通过 Redis 构建分布式的爬虫;
- 爬虫项目中的各种奇技淫巧。
阅读全文: http://gitbook.cn/gitchat/activity/5b5eab2d3ee7b103f153796f
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。