您当前的位置: 首页 >  彭世瑜 Python

Python:使用readability-lxml 提取网页标题和主体内容

彭世瑜 发布时间:2019-07-01 10:07:25 ,浏览量:4

github: https://github.com/buriy/python-readability pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-

from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769"
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title())     # 标题
print(doc.summary())   # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

关注
打赏
1688896170
查看更多评论

彭世瑜

暂无认证

  • 4浏览

    0关注

    2727博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0546s