背景
用pandas的readhtml方法读Selenium拿下来的网页元素时发生报错。 之前这个爬虫已经正常运行了几周,感觉是网页源码出了什么问题。
思考网上关于这个报错的原因解释千奇百怪,所以觉得是个挺宽泛的报错,原因还是得结合实际情况自己分析。 pd.readhtml的作用是自动识别html string中所有的table标签并将其转化为dataframe,所以应该是哪个table的内容识别出了问题。
找原因有了思路,方法也就有了,既然是数据内容出了问题,那就从数据内容开始排查。 我将原html的整个篇幅形成了table数组,一个一个地排查,发现中间掺进来一个没有tr,th标签的空table.(写网页的人脑子怎么了?)
对应方法找到了原因,对应的方法也就有了。 获得待分析的content内容后,对内部所有table结构做个过滤,排除掉所有不含
关注
打赏
热门博文
- 【bootstrap-table】【js】如何让时间戳转换为合适展现的日期格式-加工处理
- 【bootstrap-table】如何将一串时间戳改为正常日期格式
- 【Python】用Python快速实现自动点击特定像素位置
- 【Python】如何用Python写一个内网语音通过功能(最简版本)
- 【Python】【Flask】【JQuery】如何将JQuery的DatePicker应用到Flask
- 【Python】【selenium】如何自动翻译并获得页面内容
- 【Python】【selenium】为什么结合selenium+beautiful Soup能够大大提高爬虫效率
- 【Python】【常用逻辑】检查文件夹是否存在
- 【blender】基本操作总结-最常用的快捷键
- 【爬虫】【Python】自动下载网络视频代码