一、特征提取
1.1、TF-IDF
1.2、Word2Vec
1.3、 计数向量器
二、特征转换
在机器学习中,数据处理是一件比较繁琐的事情,需要对原有特征做多种处理,如类型转换、标准化特征、新增衍生特征等等,需要耗费大量的时间和精力编写处理程序, Spark ML包中提供了很多现成转换器,例如:StringIndexer、IndexToString、OneHotEncoder、VectorIndexer,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature包下。
2.1、分词器 2.2、 移除停用词 2.3、 n-gram 2.4、 二值化 2.5、 主成分分析 2.6、 多项式展开 2.7、 离散余弦变换 2.8、 字符串-索引变换 2.9、 索引-字符串变换 2.10 独热编码(OneHotEncoder (Deprecated since 2.3.0)) 2.11 向量-索引变换(VectorIndexer) 2.12 交互式 2.13、 归一化、规范化、正则化- 正则化
- 规范化(StandardScaler)
- 最大值-最小值缩放
- 最大值-绝对值缩放
特征选择(Feature Selection)是从特征向量中选择那些更有效的特征,组成新的、更简单有效的特征向量的过程。它在数据分析中常用使用,尤其在高维数据分析中,可以剔除冗余或影响不大的特征,提升模型的性能。
3.1、 向量机 3.2、 R公式 3.3、 卡方特征选择