获取豆瓣电影(完结!!)
import bs4 #网页解析,获取数据
from bs4 import BeautifulSoup
import re #正则表达式,文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQL数据库操作
#def main():
#findlink=re.compile(r'')
#爬取网页
def getData(baseurl):
datalist=[]
for i in range(0,10):
url=baseurl+str(i*25)
html=askurl(url)
#逐一解析数据
soup=BeautifulSoup(html,"html.parser")
#创建BeautifulSoup对象,html为页面内容,html.parser是一种页面解析器
for item in soup.find_all('div',class_="item"):
#查找符合要求的字符串,形成列表,即页面内所有样式的item类的div
#print(item) #查看电影item全部信息(那胡来验证比较分析)
data=[] #保存一部电影所有信息
item=str(item)
#print(item)
#break 关键:提取一步影片分析格式
#下面为正则表达式
#提取影片链接
link=re.findall(re.compile(r''),item)[0]
data.append(link)
#print(link)
#影片图片链接
findimg=re.compile(r'
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?