一、前言
有时候我们遇到的一些数据会有很多的特征,几十个,甚至成千上百个,由于此时特征较多,就大大增加了计算的复杂度。鉴于并非所有的特征都非常重要,也为了减少计算的复杂度,我们有必要对数据进行降维。
以iris数据集为例,我们都知道,iris数据集有四个特征,这就导致我们不能很好的将数据可视化,因为此时特征数据的维度是4。为了方便将数据可视化,我们可以使用主成分分析(PCA)技术提取原始数据的主要特征,消除掉信息量相对较少的特征维度,这样就实现了对原始数据的降维。当我们将数据降到1维、2维或者3维时,我们就可以轻松的将数据可视化出来。
二、实例1、导入相关模块
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA