您当前的位置: 首页 >  爬虫

IT之一小佬

暂无认证

  • 0浏览

    0关注

    1192博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫之lxml模块中etree.tostring函数的使用

IT之一小佬 发布时间:2021-01-30 12:04:56 ,浏览量:0

爬虫之lxml模块中etree.tostring函数的使用

运行下边的代码,观察对比html的原字符串和打印输出的结果

from lxml import etree
html_str = ''' 
  • first item
  • second item
  • third item
  • fourth item
  • fifth item
''' html = etree.HTML(html_str) print(html) handeled_html_str = etree.tostring(html).decode() # handeled_html_str = etree.tostring(html) print(handeled_html_str)

运行效果:

1.1 现象和结论

打印结果和原来相比:

  1. 自动补全原本缺失的li标签
  2. 自动补全html等标签
  • first item
  • second item
  • third item
  • fourth item
  • fifth item

结论:

  • lxml.etree.HTML(html_str)可以自动补全标签

  • lxml.etree.tostring函数可以将转换为Element对象再转换回html字符串

  • 爬虫如果使用lxml来提取数据,应该以lxml.etree.tostring的返回结果作为提取数据的依据
关注
打赏
1665675218
查看更多评论
立即登录/注册

微信扫码登录

0.0408s