您当前的位置: 首页 >  html

使用lxml.html.clean.Cleaner清洗html

彭世瑜 发布时间:2020-03-26 17:06:13 ,浏览量:6

文档: https://lxml.de/lxmlhtml.html#cleaning-up-html

代码示例

# -*- coding: utf-8 -*-

from lxml.html.clean import Cleaner

html = """

   铁打的腾讯

""" # 保存新闻的时候,很多属性不需要保存,不然会占用硬盘资源,所以只保留图片标签的src属性就行 safe_attrs = frozenset(['src']) # a标签也不要,只保留里边的内容 remove_tags = frozenset([ 'a' ]) cleaner = Cleaner(safe_attrs=safe_attrs, remove_tags=remove_tags) cleaned_html = cleaner.clean_html(html) print(cleaned_html) '''

   铁打的腾讯

'''

清洗之后内容简洁多了

关注
打赏
1688896170
查看更多评论

彭世瑜

暂无认证

  • 6浏览

    0关注

    2727博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0615s