您当前的位置: 首页 > 

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

cs224u 向量空间模型之降维(LSA)

段智华 发布时间:2020-02-15 13:23:56 ,浏览量:0

cs224u 向量空间模型之降维(Vector-space models: dimensionality reduction)

降维的目的是消掉VSM中的相关性,捕获高阶共现,从而改善整体空间。例如,gnarly和wicked是俚语的经常出现的形容词,我们希望它们有一个良好的VSM相似性。然而,gnary是加州人常用的,wicked是波士顿人常用的,它们不太可能经常出现在同一个文本中,之前的方法将无法对它们的相似性进行建模。然而,降维技术能够捕获这样的语义相似性(并且有缩小数据结构大小的额外优势)。

from mittens import GloVe
import numpy as np
import os
import pandas as pd
import scipy.stats
from torch_autoencoder import TorchAutoencoder
import utils
import vsm

DATA_HOME = os.path.join('data', 'vsmdata')
imdb5 = pd.read_csv(
    os.path.join(DATA_HOME, 'imdb_window5-scaled.csv.gz'), index_col=0)

imdb20 = pd.read_csv(
    os.path.join(DATA_HOME, 'imdb_window20-flat.csv.gz'), index_col=0)

giga5 = pd.read_csv(
    os.path.join(DATA_HOME, 'giga_window5-scaled.csv.gz'), index_col=0)

giga20 = pd.read_csv(
    os.path.join(D
关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0420s