背景
用pandas的readhtml方法读Selenium拿下来的网页元素时发生报错。 之前这个爬虫已经正常运行了几周,感觉是网页源码出了什么问题。
思考网上关于这个报错的原因解释千奇百怪,所以觉得是个挺宽泛的报错,原因还是得结合实际情况自己分析。 pd.readhtml的作用是自动识别html string中所有的table标签并将其转化为dataframe,所以应该是哪个table的内容识别出了问题。
找原因有了思路,方法也就有了,既然是数据内容出了问题,那就从数据内容开始排查。 我将原html的整个篇幅形成了table数组,一个一个地排查,发现中间掺进来一个没有tr,th标签的空table.(写网页的人脑子怎么了?)
对应方法找到了原因,对应的方法也就有了。 获得待分析的content内容后,对内部所有table结构做个过滤,排除掉所有不含
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?