欢迎点击「算法与编程之美」↑关注我们!
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。
问题描述
Python在自然语言处理这个方面,有其天然的优势:简单,快捷。所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题。以《三国演义》这部名著为例,文中哪些人物的出场次数最多呢?让我们用Python来解决看看吧!
解决方案
在实际计算中,我们常常遇到需要同时处理多个数据的情况,所以我们引入了“组合数据类型”的概念。而我们今天主要用到的就是组合数据类型中映射类型“字典”的知识。字典具有处理任意长度和混合类型键值对的能力。
简单介绍了相关知识后,我们再来审审题。文本词频统计其实就是计算同一个词语出现的次数,通过对文本信息的自动检索,进行累加的简单计算就可以解决问题。
下面是此问题的IPO描述:
Input:读取《三国演义》内容
Process:利用“字典”统计词语的出现次数
Output:打印出《三国演义》中出场次数最多的人名和具体次数
我们一直在强调的是文本词频的统计,那么“词语”就成为了关键,如何从一段话中提取准确的词语呢?我们就要引入P