您当前的位置: 首页 >  Python

不脱发的程序猿

暂无认证

  • 1浏览

    0关注

    492博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

5行Python提取海量新闻网站内容

不脱发的程序猿 发布时间:2020-05-03 09:28:00 ,浏览量:1

目录

1、安装模块

2、提取网页内容

本篇博客又双叒叕为各位分享一个Python库:GeneralNewsExtractor(GNE),其是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

需要明白:GeneralNewsExtractor(GNE)不是 爬虫 ,是为了规避不必要的风险,因此,本项目的输入是 HTML源代码,输出是一个字典,请自行使用恰当的方法获取目标网站的 HTML。

关注
打赏
1664101891
查看更多评论
立即登录/注册

微信扫码登录

0.0395s