您当前的位置: 首页 >  分类

Better Bench

暂无认证

  • 3浏览

    0关注

    695博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【NLP-新闻文本分类】2特征工程

Better Bench 发布时间:2021-02-19 18:10:55 ,浏览量:3

赛题

来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。 【NLP-新闻文本分类】1 数据分析和探索

1 引言

特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征提取、特征处理、特征选择和特征监控。

特征工程的重要性一句话体现:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个极限而已” 在这里插入图片描述

特征工程的处理流程首先是去掉无用特征,接着去除冗余的特征,如共线特征,并利用存在的特征、转换特征、内容中的特征以及其他数据源生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值,缺失值等)以符合模型的使用。

简单来说,特征工程的处理一般包括数据预处理、特征处理、特征选择等工作,而特征选择视情况而定,如果特征数量较多,则可以进行特征选择等操作。

2 数据预处理

在进行特征提取之前,要对数据进行预处理,具体包括数据采集、数据清洗、数据采样

关注
打赏
1665674626
查看更多评论
立即登录/注册

微信扫码登录

0.0501s