您当前的位置: 首页 >  Python

暂无认证

  • 0浏览

    0关注

    92582博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

如何利用Python进行文本词频统计

发布时间:2019-03-02 00:00:00 ,浏览量:0

欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

问题描述

Python在自然语言处理这个方面,有其天然的优势:简单,快捷。所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题。以《三国演义》这部名著为例,文中哪些人物的出场次数最多呢?让我们用Python来解决看看吧!

解决方案

在实际计算中,我们常常遇到需要同时处理多个数据的情况,所以我们引入了“组合数据类型”的概念。而我们今天主要用到的就是组合数据类型中映射类型“字典”的知识。字典具有处理任意长度和混合类型键值对的能力。

    简单介绍了相关知识后,我们再来审审题。文本词频统计其实就是计算同一个词语出现的次数,通过对文本信息的自动检索,进行累加的简单计算就可以解决问题。

下面是此问题的IPO描述:

Input:读取《三国演义》内容

Process:利用“字典”统计词语的出现次数

Output:打印出《三国演义》中出场次数最多的人名和具体次数

我们一直在强调的是文本词频的统计,那么“词语”就成为了关键,如何从一段话中提取准确的词语呢?我们就要引入P

关注
打赏
1653961664
查看更多评论
立即登录/注册

微信扫码登录

0.3509s