您当前的位置: 首页 >  爬虫

微博爬虫总结:构建单机千万级别的微博爬虫系统

蔚1 发布时间:2018-08-14 00:43:29 ,浏览量:4

微博语料库是一个巨大且珍贵的中文语料资源,在舆情监控、商业分析、兴趣挖掘等诸多领域都有广泛的应用。而获取微博语料库的方法就是构建一个稳定高效微博语料抓取系统。

本次 Chat 首先会带着大家分析微博 PC 端/移动端各个站点的实际情况,以及能够抓取的数据维度,随后会逐个分析微博每个站点的登陆方案,并基于此构建微博账号池。最后介绍 Scrapy 爬虫框架,结合 Redis 技术,构建分布式的微博数据抓取系统,实现单机每日 1kw+ 的语料抓取。

通过本场 Chat 您将学习到:

  1. Selenium 自动化框架,并基于该框架自动实现网站的登陆;
  2. 滑块验证码、字母验证码的破解方案;
  3. Scrapy 框架的简单入门;
  4. 通过 Redis 构建分布式的爬虫;
  5. 爬虫项目中的各种奇技淫巧。

阅读全文: http://gitbook.cn/gitchat/activity/5b5eab2d3ee7b103f153796f

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

关注
打赏
1688896170
查看更多评论

蔚1

暂无认证

  • 4浏览

    0关注

    4645博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.3533s