您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 1浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python 从零开始爬虫(二):BeautifulSoup解析网页

嗨学编程 发布时间:2019-04-20 14:53:23 ,浏览量:1

学了requests,了解了伪装技巧后,终于能爬到些比较正常的网页源码(html文档)了,但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样,没有合适的筛子,你就会把有价值的漏掉了,或者做了无用功把没用的也筛了出来。 淘金者看土质,做筛子。对应到爬虫领域就是观察html,定制筛选器。

稍稍了解HTML

信息都在网页源码里,浏览器通过解析源码来加载我们所看到的东西,那我们是不是也应该学下如何看源码呢?——是的

但不要方,这不是html语法课,做爬虫的,只需了解一下html的原理和标签关系就行了,这跟认亲戚一样简单,你会看家族树的话根本不成问题。





    
      Harry Potter
      J K. Rowling 
      2005
      29.99
    




有时候会堆成一行,影响观察但不影响使用,丢到排版器排一下就好了
Harry PotterJ K. Rowling            
关注
打赏
1663681728
查看更多评论
0.1070s