您当前的位置: 首页 >  ar

宝哥大数据

暂无认证

  • 13浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

机器学习(Macheine Learning)面试知识点

宝哥大数据 发布时间:2020-05-07 09:44:08 ,浏览量:13

关注我的公众号【宝哥大数据】

在这里插入图片描述

零、数学基础 一、 探索数据 1.1、数据质量分析
  • 缺失值、异常值、不一致的数据、错误数据

  • 数据预处理

1.2、特征工程 1.2.1、数据特征分析 1.2.2、归一化、标准化、正则化 1.2.3、特征提取、转换和选择
  • 降维
    • 特征提取: 通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间
    • 特征选择:从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间
  • 特征转换
1.3、模型  1.3.1、模型的选择、调优  1.3.2、模型的评估 1.4、数据可视化 1.5、Spark ML 二、 概念、理论、

机器学习的理论框架 机器学习概念,公式总结

2.1、统计方法三要素:模型+策略+算法 2.2、判别模型与生成模型 2.3、损失函数、代价函数与目标函数 2.3、核函数 三、监督学习

  监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归

3.1、分类 3.1.1、分类的原理
  • 感知机
  • KNN(K均邻算法)
  • SVM(支持向量机)
  • logistic 回归
    • python
  • 朴素贝叶斯决策
3.1.2、Spark ML 构建分类模型 3.2、回归 3.2.1、 linear regression(线性回归)
  • 线性回归python实现

     - 标准线性回归
     - 局部加权线性回归
     - 缩减法
     	- 岭回归
     	- lasso
     	- 前向逐步回归
    
3.2.2、广义线性回归 3.2.3、树回归 3.2.4、随机森林回归 3.2.5、梯度提高树回归(Gradient-boosted tree regression) 3.2.6、生存回归(Survival regression) 3.2.7、保序回归 3.2.8、Spark ML 构建回归模型 3.3、决策树
  • python实现

  • Ensembles of decision trees

    • random forests
    • gradient-boosted trees
  • Isotonic regression

Linear models 四、非监督学习

  根据给定已知类别标签的样本,训练出某种模型,然后对未知类别的样本进行分类,称为supervised learning(监督学习)。   指事先并不知道样本的类别标签,希望通过某种算法来把未知类别的样本划分成若干类,亦称作 unsupervised learning (无监督学习)。

4.1、聚类 4.1.1、基于划分 4.1.1.1、k-means
  • 效果衡量方法
    • SSE, 肘部法、轮廓系数法
  • k-means的改进
  • K-Menas处理的经验
    • 枚举特征
    • 长尾特征 对特征取log
4.1.2、层次聚类 4.1.3、基于密度聚类 4.1.3.1、Gaussian Mixture Model(GMM) 4.1.3.2、DBSCAN 4.1.3.3、Mean Shift(均值漂移) 4.1.4、基于网格 4.1.5、基于模型的方法(Model-based methods) 4.2、Apriori  4.2.1、Apriori概念及原理 4.3、FP-Growth  4.3.1、FP-Growth概念及原理 六、 深度学习 深度学习与机器学习的关系

在这里插入图片描述

七、应用  6.1、推荐系统 八、知识点 8.1、百面机器学习,学习笔记 8.2、转自光影流年925博客
  • 人工智能、机器学习、深度学习、数据挖掘的区别是什么?
  • 【笔记】想学机器学习?这里有你需要知道的一些基础知识!
  • 【笔记】机器学习所涉及到的“概率论”知识
  • 【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
  • 【笔记】机器学习用到的“高等数学”知识简单回顾
关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0407s