有任何的书写错误、排版错误、概念错误等,希望大家包含指正。 由于字数限制,分成两篇博客。 【自然语言处理】潜在语义分析【上】潜在语义分析 【自然语言处理】潜在语义分析【下】概率潜在语义分析
基础概念 文档(Document):泛指一般的文本或者文本中的片断(段落、句群或句子),一般指一篇文章,尽管文档可以是多媒体对象,但是以下讨论中我们只认为是文本对象,对文本与文档不加以区别。
项(Term):文本的内容特征常常用它所含有的基本语言单位(字、词、词组或短语等)来表示,这些基本的语言单位被统称为文本的项,因此文本可以用项集表示为 d ( t 1 , t