欢迎点击「算法与编程之美」↑关注我们!
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。
我们处于信息爆炸的时代中,我们所面对的数据不仅数量大,而且这些数据往往具有较高的维度,引起“维度灾难”。这些高维度数据中有大部分对于我们是不需要,因此实现数据降维是非常必要的。
PCA(Principal Component Analysis)算法,即主成分分析方法,是机器学习中重要的数据降维方法,通过获取数据的主要投影方向实现数据向主要特征方向上的映射,最终达到数据降维、去噪的效果。下面将对其数学推导过程进行展示: 假设有一个m行n列的数据X,表示m个元素,每个元素有n个属性。
这些点都是按各自的坐标分布于空间中。若存在若干方向上的向量,这些点均可以向这些向量上进行投影,则会有多种不同的投影方式,有些向量上的投影点比较分散,而有些向量上的投影较为密集。如图所示:
从上图可以看出,数据点在L1方向上的投影较为扁平,而在L2方向上的