用python爬取图片和搞笑段子

发布时间：2017-04-18 19:52:59 ，浏览量：3

python是一个高效率的工具，无论是做什么开发的程序员，学点python，很多时候，总会让你事半功倍，如用python换包名，用python进行搜索文件，用python进行...，今天小试python，爬取搞笑段子及网站图片。

爬取糗事百科段子

使用BeautifulSoup库，可以自行下载

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup  
import urllib2  
def getContent(n):  
    url = 'http://www.qiushibaike.com/text/page/' + str(n) + '/'  
    print url  
    heads = {  
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) 
          AppleWebKit/537.36 
         (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36',  
        'Accept': 'text/html,application/xhtml+xml,
         application/xml;q=0.9,*/*;q=0.8',  
        'Connection': 'keep-alive',  
        'Upgrade-Insecure-Requests': '1',  
        'Referer': 'http://www.qiushibaike.com/',  
        'Accept-Language': 'zh-CN,zh;q=0.8',  
        'Cookie': '_xsrf=2|db27040e|6b4ed8d9536590d4ec5d2064cc2bef4f
        |1474364551; 
         _qqq_uuid_="2|1:0|10:1474364551|10:_qqq_uuid_|
         56:MzBlNWFkOGE3MWEyMzc1MWIxMTE3MDBlZjM2M2RkZWQ
         xYzU5YTg1Yw==
        |1dd2a4f4ceacad26b5da9cc295d2965226ea25ee73289855
         cf032629c4992698"; 
        Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1474364592; 
        Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1474364595; 
        _ga=GA1.2.1125329542.1474364596'  
    }  
    res = urllib2.Request(url, headers=heads)  
    response = urllib2.urlopen(res)  
    html = response.read()  
    soup = BeautifulSoup(html, "lxml")  
    someData = soup.select("div.content span")  
    num = 0  
    for some in someData:  
        num = num + 1  
        print num  
        print some.text + '\n'  
if __name__ == "__main__":  
    for i in range(1, 5):  
        getContent(i)

在cmd效果：

在Eclipse中运行：

爬取图片

爬取图片：（煎蛋网）

[1] 图片请上传到新浪微博相册，在评论框里粘帖图片地址即可发图 [2] 原创图请注明来源。发布后请等待审核，未通过审核的原因可能是重复图或者敏感图

妹子图过审标准：1、非AV截图；2、身着内衣；3、不露点

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
from HttpClient import HttpClient
import sys,re,os
class JianDan(HttpClient):
    def __init__(self):
        self.__pageIndex = 1500
        self.__Url = "http://jandan.net/ooxx/"
        self.__floder = "jiandan"
    def __getAllPicUrl(self,pageIndex):
        realurl = self.__Url + "page-" + str(pageIndex) + "#comments"
        pageCode = self.Get(realurl)
        type = sys.getfilesystemencoding()
        pattern = re.compile('
			
				.*?.
        *?

关注

打赏

1688896170

查看更多评论

用python爬取图片和搞笑段子

[ 申请 ]友情链接：