解析数据的BeautifulSoup模块
# 创建一个BeautifulSoup对象,获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('head节点内容为:\n',soup.head) # 打印head节点
print('body节点内容为:\n',soup.body) # 打印body节点
print('title节点内容为:\n',soup.title) # 打印title节点
print('p节点内容为:\n',soup.p) # 打印p节点
2. 获取节点属性
soup = BeautifulSoup(html_doc, features="lxml")
print('meta节点中属性如下:\n',soup.meta.attrs)
print('link节点中属性如下:\n',soup.link.attrs)
print('div节点中属性如下:\n',soup.div.attrs)
3. 获取节点包含的文本内容
print('title节点所包含的文本内容为:',soup.title.string)
print('h3节点所包含的文本内容为:',soup.h3.string)
4. 嵌套获取节点内容
soup = BeautifulSoup(html_doc, features="lxml")
print('head节点内容如下:\n',soup.head)
print('head节点数据类型为:'