python是一个高效率的工具,无论是做什么开发的程序员,学点python,很多时候,总会让你事半功倍,如用python换包名,用python进行搜索文件,用python进行...,今天小试python,爬取搞笑段子及网站图片。
1
爬取糗事百科段子
使用BeautifulSoup库,可以自行下载
# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 def getContent(n): url = 'http://www.qiushibaike.com/text/page/' + str(n) + '/' print url heads = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml, application/xml;q=0.9,*/*;q=0.8', 'Connection': 'keep-alive', 'Upgrade-Insecure-Requests': '1', 'Referer': 'http://www.qiushibaike.com/', 'Accept-Language': 'zh-CN,zh;q=0.8', 'Cookie': '_xsrf=2|db27040e|6b4ed8d9536590d4ec5d2064cc2bef4f |1474364551; _qqq_uuid_="2|1:0|10:1474364551|10:_qqq_uuid_| 56:MzBlNWFkOGE3MWEyMzc1MWIxMTE3MDBlZjM2M2RkZWQ xYzU5YTg1Yw== |1dd2a4f4ceacad26b5da9cc295d2965226ea25ee73289855 cf032629c4992698"; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1474364592; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1474364595; _ga=GA1.2.1125329542.1474364596' } res = urllib2.Request(url, headers=heads) response = urllib2.urlopen(res) html = response.read() soup = BeautifulSoup(html, "lxml") someData = soup.select("div.content span") num = 0 for some in someData: num = num + 1 print num print some.text + '\n' if __name__ == "__main__": for i in range(1, 5): getContent(i)
在cmd效果:
在Eclipse中运行:
2
爬取图片
爬取图片:(煎蛋网)
[1] 图片请上传到 新浪微博相册,在评论框里粘帖图片地址即可发图 [2] 原创图请注明来源。发布后请等待审核,未通过审核的原因可能是重复图或者敏感图
妹子图过审标准:1、非AV截图;2、身着内衣;3、不露点
# -*- coding: utf-8 -*- from __future__ import unicode_literals from HttpClient import HttpClient import sys,re,os class JianDan(HttpClient): def __init__(self): self.__pageIndex = 1500 self.__Url = "http://jandan.net/ooxx/" self.__floder = "jiandan" def __getAllPicUrl(self,pageIndex): realurl = self.__Url + "page-" + str(pageIndex) + "#comments" pageCode = self.Get(realurl) type = sys.getfilesystemencoding() pattern = re.compile('.*?. *?
关注打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?
立即登录/注册


微信扫码登录