尺寸超过3个时创建2D图表
> Photo by Steve Johnson from Pexels
每个人都了解一个好的图表。
但是,我们如何显示4维以上的数据?
一维可视化集群是小菜一碟。
> Too easy
在二维中查找聚类很容易。
> Easy
看到3维的星团……开始糟透了。 我们可以编辑节点大小或不透明度来区分第三维。
> Not so easy
5维? 忘掉它。
三、PCA推导先看下面这幅图:在第一部分中,我们举了一个学生成绩的例子,里面的数据点是六维的,即每个观测值是6维空间中的一个点。我们希望将6维空间用低维空间表示。先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表。
但是…PCA可以将您的5维投影到2维,而不会丢失(很多)信号。
>
什么是5秒PCA?
PCA通过将相关要素组合到新要素中,将较高维度的数据投影到较低维度。
相互关联的功能在视觉上模糊了群集,无助于训练模型并增加了复杂性。 所以没什么大不了的。
使用PCA在图片中实现3D到2D
主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信。
与3D图表相比,我每天都更喜欢2D图表。
n维空间中的n个点一定能在一个k(k<n)维空间中分析,我们就可以通过线性变换将高维数据最终压缩到第一、第二特征分量所在的二维平面上。涉及到了PCA的降维思想。
我们将使用PCA将3D数据转换为2D数据。 无论您有10个尺寸还是100个尺寸,该过程都是相同的。
我们将跳过数学,只是尝试直观地理解这一点。
(1)PCA分析及作图 前文已经介绍了PCA是基于原始数据,所以直接进行PCA分析即可。由于前面已经介绍过散点图的绘制方法,这里不再细讲,PCA分析完毕后我们直接作图展示结果。整体看起来还不错,就是B-和C-的学生似乎难以。
1.绘制数据
假设我们的数据如下所示。 左侧是特征x,y和z。 在右侧,绘制了这些点。
假设标绘的数据点已缩放。
2.查找数据中心
这是每个特征的平均值:x,y和z。
3.移动数据点,使中心现在位于(0,0)
笔记数据点的相对位置不变。
4.找到最合适的线
最佳拟合线称为PC1(主要组件1)。
PC1使点与最合适的直线成直角的距离的平方距离之和最大。
PC1是x,y和z的线性组合,表示它包含每个x,y和z的一部分。
PC2是垂直于PC1(垂直相交)的最佳拟合线。
绘制PCA图 于是所有的数据点都可以转换为坐标(PC1,PC2),以PC1和PC2为坐标轴即可绘制出相应的PCA图。2个Gene的PCA过程如上,3个Gene的PCA同理,先获得中心点,然后对所有点进行拟合获得PC1,然后在垂直于PC2的线中,。
PC2也是每个x,y和z的线性组合。
现在,PC1和PC2都解释了我们功能的某些差异。
通过计算&34;,可以测量每台PC的相对重要性x,y和z。
6.旋转图表,使PC1为x轴,PC2为y轴
旋转后,我们的数据现在只有二维! 而且群集很容易发现。
如果开始时有3个以上尺寸怎么办?
数据集中的PC数量与功能或示例中较少的PC数量相同。
您可以通过比较特征值(到原点的距离的平方和)并构造碎石图来计算每个PC的解释方差。 根据定义,PC2解释的差异小于PC1,而PC3解释的差异小于PC2。
确定要保留多少台PC。 在我们的示例中,我们决定省略PC3。
剩余PC数将决定最终图表中的尺寸数。
结论
而已。 我试图使它尽可能平易近人。
您现在已经有了非常基本的了解。