点击上方“码农突围”,马上关注
这里是码农充电第一站,回复“666”,获取一份专属大礼包
真爱,请设置“星标”或点个“在看”
昨天方阵中的军乐队小姐姐火了,看到朋友圈好多小伙伴说自己恋爱了。除了军乐队的小姐姐,知乎上也有很多漂亮小姐姐的照片。今天知乎上有一个热搜问题
“你见过的有些人能漂亮到什么程度?”
原问题在这儿
https://www.zhihu.com/question/266808424
我们用爬虫爬了下这个问题下的高赞照片。在欣赏小姐姐的美照之前,我们先来分享一下思路。
首先通过浏览器的开发者工具,找到所有回答的链接。知乎的回答都是ajax的方式加载的,一次加载一页。
我们可以通过知乎回答的url,先把回答一页一页的爬下来,存到本地数据库。随后从数据库里读取数据,筛选出高赞的回答,把回答里的图片解析出来。
思路大致就是这样。
这里分享几个主要函数,完整代码可以在后台回复“知乎小姐姐”获取。
def get_answers_by_page(page_no): offset = page_no * 10 url = "&offset={}&limit=10&sort_by=default&platform=desktop".format(offset) headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36", } r = requests.get(url, verify=False, headers=headers) content = r.content.decode("utf-8") data = json.loads(content) is_end = data["paging"]["is_end"] items = data["data"] client = pymongo.MongoClient() db = client["beauty"] if len(items) > 0: db.answers.insert_many(items) return is_end def get_answers(): page_no = 0 client = pymongo.MongoClient() while True: print(page_no) is_end = get_answers_by_page(page_no) page_no += 1 if is_end: break def query(): client = pymongo.MongoClient() db = client["beauty"] items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)]) count = 0 for item in items: content = item["content"] vote_num = item["voteup_count"] author = item["author"]["name"] matched = re.findall(r'data-original="([^"]+)"', content) print("> 来自 {}\n".format(item["url"])) print("> 作者 {}\n".format(author)) print("> 赞数 {}\n".format(vote_num)) img_urls = [] for img_url in matched: if img_url not in img_urls: print("".format(img_url)) img_urls.append(img_url) count += len(img_urls) print("\n\n") print(count)
上面是3个函数。
-
get_answers_by_page - 这个函数用于获取一页的回答内容,获取的内容会存到本地MongoDB里
-
get_answers - 这个函数用于获取所有页的内容,它会调用上面的函数,循环获取每一页的内容
-
query - 这个函数用于从MongoDB里查询数据,筛选高赞回答,并且把结果打印出来
如果要完整的运行这个项目,大家可以下载源代码后,在本地运行。
运行项目后,程序会筛选出所有赞数大于100的回答,并且把回答里的图片整理出来。赞数越高的回答,小姐姐的颜值越高。
我们来欣赏一下部分小姐姐的美照
来自 https://www.zhihu.com/api/v4/answers/616931654
作者 不知
赞数 24153
来自 https://www.zhihu.com/api/v4/answers/768553689
作者 一只喝酒的猫Miao
赞数 17702
来自 https://www.zhihu.com/api/v4/answers/626983318
作者 匿名用户
赞数 17432
来自 https://www.zhihu.com/api/v4/answers/621175755
作者 知乎用户
赞数 16764
来自 https://www.zhihu.com/api/v4/answers/792418115
作者 匿名用户
赞数 16285
来自 https://www.zhihu.com/api/v4/answers/664414526
作者 万金油
赞数 13502
来自 https://www.zhihu.com/api/v4/answers/612795804
作者 樱桃玩
赞数 13320
来自 https://www.zhihu.com/api/v4/answers/612018288
作者 JoyCE
赞数 12990
来自 https://www.zhihu.com/api/v4/answers/670086163
作者 William
赞数 11706
来自 https://www.zhihu.com/api/v4/answers/626009680
作者 走X广大月月鸟
赞数 11004
来自 https://www.zhihu.com/api/v4/answers/663844739
作者 运动医学王杨医生
赞数 10526
来自 https://www.zhihu.com/api/v4/answers/613282193
作者 NiceJelly
说句题外话,有不少人想加鱼哥微信,鱼哥姑且放出来,但是坑位有限哦
有热门推荐????
1、工作3年,终于拿到阿里年薪40万offer!经验都记录在
2、为了给女朋友买件心怡内衣,我用Python爬虫了天猫内衣售卖数据
3、你干了这么久程序员,竟然不知道Code Review怎么搞?