关注我的公众号【宝哥大数据】
-
缺失值、异常值、不一致的数据、错误数据
-
数据预处理
- 降维
- 特征提取: 通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间
- 特征选择:从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间
- 特征转换
机器学习的理论框架 机器学习概念,公式总结
2.1、统计方法三要素:模型+策略+算法 2.2、判别模型与生成模型 2.3、损失函数、代价函数与目标函数 2.3、核函数 三、监督学习监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归
3.1、分类 3.1.1、分类的原理- 感知机
- KNN(K均邻算法)
- SVM(支持向量机)
- logistic 回归
- python
- 朴素贝叶斯决策
-
线性回归python实现
- 标准线性回归 - 局部加权线性回归 - 缩减法 - 岭回归 - lasso - 前向逐步回归
-
python实现
-
Ensembles of decision trees
- random forests
- gradient-boosted trees
-
Isotonic regression
根据给定已知类别标签的样本,训练出某种模型,然后对未知类别的样本进行分类,称为supervised learning(监督学习)。 指事先并不知道样本的类别标签,希望通过某种算法来把未知类别的样本划分成若干类,亦称作 unsupervised learning (无监督学习)。
4.1、聚类 4.1.1、基于划分 4.1.1.1、k-means- 效果衡量方法
- SSE, 肘部法、轮廓系数法
- k-means的改进
- K-Menas处理的经验
- 枚举特征
- 长尾特征 对特征取log
- 人工智能、机器学习、深度学习、数据挖掘的区别是什么?
- 【笔记】想学机器学习?这里有你需要知道的一些基础知识!
- 【笔记】机器学习所涉及到的“概率论”知识
- 【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
- 【笔记】机器学习用到的“高等数学”知识简单回顾