您当前的位置: 首页 >  爬虫

钟钟终

暂无认证

  • 2浏览

    0关注

    233博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

(吼吼吼)初学爬虫 +爬取豆瓣电影

钟钟终 发布时间:2021-10-04 23:59:16 ,浏览量:2

获取豆瓣电影(完结!!)
import bs4      #网页解析,获取数据
from bs4 import BeautifulSoup
import re       #正则表达式,文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt     #进行excel操作 
import sqlite3  #进行SQL数据库操作  

#def  main():
#findlink=re.compile(r'')
        
    
#爬取网页
def getData(baseurl):
    datalist=[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askurl(url)
        #逐一解析数据
        soup=BeautifulSoup(html,"html.parser")
#创建BeautifulSoup对象,html为页面内容,html.parser是一种页面解析器
        for item in soup.find_all('div',class_="item"):  
#查找符合要求的字符串,形成列表,即页面内所有样式的item类的div
            #print(item) #查看电影item全部信息(那胡来验证比较分析)
            data=[] #保存一部电影所有信息
            item=str(item)
            #print(item)
            #break            关键:提取一步影片分析格式
            #下面为正则表达式
            #提取影片链接
            link=re.findall(re.compile(r''),item)[0]
            data.append(link)
            #print(link) 
            
            #影片图片链接
            findimg=re.compile(r'            
关注
打赏
1664378814
查看更多评论
0.0507s