cs224u Homework PPMI+ LSA +GloVe+ Dice coefficient + t-test reweighting +subword information
本文包括以下内容:
- PPMI as a baseline
- Gigaword with LSA at different dimensions
- Gigaword with GloVe for a small number of iterations
- Dice coefficient
- t-test reweighting
- Enriching a VSM with subword information
- Your original system
- Bake-off
PPMI作为任务的基线代码,编写run_giga_ppmi_baseline函数,实现以下操作: 1.在VSM中,读取Gigaword 计数矩阵(窗口大小为20)到pd.DataFrames中。文件是data/vsmdata/giga_window20-flat.csv.gz。 2.用PPMI重新更新计数矩阵的权重。 3.使用full_word_similarity_evaluation函数评估这个重加权矩阵。run_giga_ppmi_baseline的返回值是调用完全相似性评估的返回值。目的是熟悉vsm中的代码和函数full_word_similarity_evaluation。
test_run_giga_ppmi_baseline基线用于测试是否正确实现了此规范。
giga_window20-flat.csv文件(维度5000,选取5000个单词)的部分记录如下: