1.本节课内容为数据分析中的【主成分分析】,主要分为三个部分进行讲解,具体如下图。
2.由于建立模型时,识别参数较多,统计检验误差较大,计算运行时间较长,我们通常采用【主成分分析】进行降维或者聚类。
3.【优化函数】:把一个问题转化为优化问题,首先确定优化目标是最小还是最大,其次是优化函数的形式,约束条件可以确定解空间大X的范围。
4.【主成分】是不相关的、从中提取信息,如果设置新的随机变量,定义为主成分,需要使第i个主成分描述的信息最大,也就是方差最大,其次两个约束条件。
5.主成分概念的案例如下图。
6.【主成分分析】:我们所要求解的主成分ai就是原来的大S对应的相关差取证的特证值对应的特定向量,即主成分所要求的前面大S线性组合的系数。
7.第K个主成分与第i个原来随机变量的相关系数定义为【因子负荷量】,第K个方差比上整体方差为【贡献率】,前K个主成分方差比上总体主成分方差为【累计贡献率】。
8.主成分分析的【假设检验】如下图。
9.定义主成分分析的三个【步骤】如下图。
10.主成分的【性质】如下图。
11.主成分的应用包括【分类、降维、可视化】,【指标分类】就是对随机变量进行分类,其实是对样本进行降维,具体的分类还是要取决于给出的分类度量。
12.【样本分类】就是两个样本在所有随机变量下度量都是比较近的,也就是相关系数为1,它是对指标进行降维,从P维降到M维。
13.【可视化】通常用二维或者三维进行展示,可清楚的看到样本的情况,如果想要降维后的数据也是尽可能不相关的,需要在求主成分ai时增加相应的约束条件。