您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 1浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

python爬取静态数据并存储json

嗨学编程 发布时间:2019-06-11 15:17:48 ,浏览量:1

import requests

import chardet

from bs4 import BeautifulSoup

import json
'''
遇到python不懂的问题,可以加Python学习交流群:1004391443一起学习交流,群文件还有零基础入门的学习资料
'''
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

headers={'User-Agent':user_agent}

r=requests.get('http://seputu.com/',headers=headers)

r.encoding=chardet.detect(r.content)['encoding']

soup=BeautifulSoup(r.text,features='html.parser')

content=[]

for mulu in soup.find_all(class_='mulu'):

    h2=mulu.find('h2')

    if(h2!=None):

        h2_title=h2.string

        list=[]

        for a in mulu.find(class_='box').find_all('a'):

            href=a.get('href')

            box_title=a.get('title')

            print(href,'|||',box_title)

            list.append({'href':href,'box_title':box_title})

            pass

        content.append({'title':h2_title,'content':list})

        pass

    pass

with open('1.json','w') as fp:

    json.dump(content, fp=fp,indent=4)

 

关注
打赏
1663681728
查看更多评论
立即登录/注册

微信扫码登录

0.0486s