cs224u 向量空间模型之降维(Vector-space models: dimensionality reduction)
降维的目的是消掉VSM中的相关性,捕获高阶共现,从而改善整体空间。例如,gnarly和wicked是俚语的经常出现的形容词,我们希望它们有一个良好的VSM相似性。然而,gnary是加州人常用的,wicked是波士顿人常用的,它们不太可能经常出现在同一个文本中,之前的方法将无法对它们的相似性进行建模。然而,降维技术能够捕获这样的语义相似性(并且有缩小数据结构大小的额外优势)。
from mittens import GloVe
import numpy as np
import os
import pandas as pd
import scipy.stats
from torch_autoencoder import TorchAutoencoder
import utils
import vsm
DATA_HOME = os.path.join('data', 'vsmdata')
imdb5 = pd.read_csv(
os.path.join(DATA_HOME, 'imdb_window5-scaled.csv.gz'), index_col=0)
imdb20 = pd.read_csv(
os.path.join(DATA_HOME, 'imdb_window20-flat.csv.gz'), index_col=0)
giga5 = pd.read_csv(
os.path.join(DATA_HOME, 'giga_window5-scaled.csv.gz'), index_col=0)
giga20 = pd.read_csv(
os.path.join(D