- 1 分类
- 2 K-邻近
- 2.1 简介
- 2.2 算法过程
- 2.3 选择一个正确的K值
- 3 分类评估指标
(1)概念 • 一种监督学习方法 • 分类一些未知的事物 • 目标属性是一个分类变量 (2)工作机制 举例:分类向银行提出贷款的顾客是否可以贷款。
(3)应用 • 邮箱过滤 • 语音识别 • 手写识别 • 生物识别 • 文件识别 (4)分类算法 • 决策树(Decision Trees) • 朴素贝叶斯(Naive bayes) • 线性判别分析(linear discriminant nanlysis) • K-邻近(K-nearst Neighbor) • 逻辑回归(Logistic regression) • 神经网络(Neural Networ) • 支持向量机(Support Vector Machine,SVM)
2 K-邻近 2.1 简介是一种是分类算法,采用一些已经标签的点去标记未标签的点。这个算法的原理是基于相似度. • A method for classifying cases based on their similarity to other cases • Cases that are near each other are said to be “beighbors” • Based on simiar cases with same class labels are near each other 如下图根据个别自变量age和Income去判别类别。方法是去找最邻近的那个点。
(1)为K找到一个值 (2)计算未知点与所有已知点的距离(相似度) (3)在训练数据中找到与未知点最邻近的K的观察值(Select the K-observations in the training data that are nearest to unknown data point) (4)Predict the response of the unknown data point using the most popular response value from the K-nearest neighbors 问题是:如何选择一个正确的K,如何计算距离
2.3 选择一个正确的K值过低的K值可能会导致模型的高复杂度,也会导致模型过拟合。方法是在不同K值下计算模型的准确率,选择最佳准确率的K值。
(1)分类准确率Classification accuracy (2)Jaccard Index 说白了就是如下两个圆圈重叠是大小。越大越好。
(3)F1-score F1分数度量,在《机器学习-周志华》书的32-32页详解。Confusion matrix 是混淆矩阵。 Precision又称为查准率 Recall又称为查全率 F1-score越高准确率越高
(4)Log Loss 在输出概率是0~1之间去评价分类器的好坏。 如下举例计算Log loss.Log loss越小越好。