您当前的位置: 首页 > 

宝哥大数据

暂无认证

  • 1浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

特征提取、转换和选择

宝哥大数据 发布时间:2019-05-29 21:46:17 ,浏览量:1

一、特征提取 1.1、TF-IDF 1.2、Word2Vec 1.3、 计数向量器 二、特征转换

  在机器学习中,数据处理是一件比较繁琐的事情,需要对原有特征做多种处理,如类型转换、标准化特征、新增衍生特征等等,需要耗费大量的时间和精力编写处理程序, Spark ML包中提供了很多现成转换器,例如:StringIndexer、IndexToString、OneHotEncoder、VectorIndexer,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature包下。

2.1、分词器 2.2、 移除停用词 2.3、 n-gram 2.4、 二值化 2.5、 主成分分析 2.6、 多项式展开 2.7、 离散余弦变换 2.8、 字符串-索引变换 2.9、 索引-字符串变换 2.10 独热编码(OneHotEncoder (Deprecated since 2.3.0)) 2.11 向量-索引变换(VectorIndexer) 2.12 交互式 2.13、 归一化、规范化、正则化
  • 正则化
  • 规范化(StandardScaler)
  • 最大值-最小值缩放
  • 最大值-绝对值缩放
2.14、 离散化重组 2.15、 元素乘积 2.16、 SQL转换器 2.17、 向量汇编(VectorAssembler) 2.18、 分位数离散化 三、特征选择

  特征选择(Feature Selection)是从特征向量中选择那些更有效的特征,组成新的、更简单有效的特征向量的过程。它在数据分析中常用使用,尤其在高维数据分析中,可以剔除冗余或影响不大的特征,提升模型的性能。

3.1、 向量机 3.2、 R公式 3.3、 卡方特征选择
关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.5436s