经历学校论文查重的种种繁琐事项,我们从中发现费钱费力,既交花钱给知网查重又要对查重后的文章进行修改、调整,简直是对学生语文功底的考察而不是对学生技术能力的考察,针对文本查重场景本文预设计一个文本相似度系统以帮助我们在参考其它文献时比对自己与其它文献的相似度,以此来减轻我们后期的工作负担。
本场 Chat 以吐槽为背景顺便复习/学习一下 NLP 中的本文相似度,您将学到如下内容:
- 了解向量空间模型(VSM);
- 了解余弦相似度;
- 文本相似度系统的核心算法及流程;
- 系统设计及核心代码。
文章思路:
- 介绍文本相似度的相关基础理论,包括向量空间模型(VSM)、余弦相似度等。
- 介绍文本相似度系统设计及流程。
- 将核心代码展示给读者。
核心系统设计流程:
- 将文档输入系统,对文档进行数据预处理操作,数据预处理完成后使用向量空间模型将词组转化为向量。
- 使用余弦相似度计算公式求解文档之间的相似度,其中本系统中对文档中的每个小段落进行切片处理,并分别计算各切片间的相似度。
- 对切片相似度进行加权求和即得到文档之间的相似度,最终将文档之间的相似度展示给用户。
阅读全文: http://gitbook.cn/gitchat/activity/5b6118785b28bb10cc0ef4d7
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。