Py之word2vec:word2vec的简介、安装、案例应用之详细攻略
目录
word2vec的简介
(1)、word2vec的使用方法
word2vec的安装
word2vec的案例应用
1、基础案例
word2vec的简介 源自谷歌的word2vec的Python接口。训练是使用原始的C代码完成的,其他功能是纯Python和numpy。word distributed embedding最早是Bengio 03年的论文"A Neural Probabilistic Language Model"提出来,rnn lm 在10年被mikolov提出。 word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效。word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量Dense Vector。所谓的word vector,就是指将单词向量化,将某个单词用特定的向量来表示。将单词转化成对应的向量以后,就可以将其应用于各种机器学习的算法中去。一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。
GitHub官网:GitHub - danielfrg/word2vec: Python interface to Google word2vec
(1)、word2vec的使用方法(1) 、分词 / 词干提取和词形还原。 (2)、 构造词典,统计词频。 (3) 、构造树形结构。 (4)、生成节点所在的二进制码。 (5) 、初始化各非叶节点的中间向量和叶节点中的词向量。 (6) 、训练中间向量和词向量。
word2vec的安装pip install word2vec
word2vec的案例应用
1、基础案例
import word2vec
model = word2vec.load('/Users/drodriguez/Downloads/vectors.bin')
model.vectors.shape
model['_*1']
indexes, metrics = model.cosine('_*1')
model.generate_response(indexes, metrics).tolist()