有任何的书写错误、排版错误、概念错误等,希望大家包含指正。 由于字数限制,分成两篇博客。 【自然语言处理】潜在语义分析【上】潜在语义分析 【自然语言处理】潜在语义分析【下】概率潜在语义分析
2. 概率潜在语义分析概率潜在语义分析(probabilistic latent semantic analysis,PLSA),也称概率潜在语义索引(probabilistic latent semantic indexing,PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。
2.1. 基本思想给定一个文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示。对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词。话题是不能从数据中直接观察到的,是潜在的。
文本集合转换为文本-单词共现数据,具体表现为单词-文本矩阵(如图 1 1