7 PCA

假设现在的情况中,样本集中的数据中的某两个(或多个)分量是具有较强的关联性的,以至于整个样本空间可以降维,我们使用主成分分析(Principal Components Analysis)来解决。

可以有一个较为直观的认知,就是数据点基本都按照一个轴分布,少数有噪声出现在轴附近

在进行PCA前,先对随机变量进行标准化

假设标准化后的样本集如下:

如何找到合适的u(轴)向量呢?我们先选取两个单位向量,关注他们的投影,可以看到第一个取法的投影数据的方差比较大,这是我们想要的。

为了规范化取向量 \(u(||u||=1)\) 的标准,我们求

\[ \max \frac{1}{m}\sum_{i=1}^m(x^{(i)^T}u)^2 =\max u^T(\frac{1}{m}\sum_{i=1}^m x^{(i)}x^{(i)^T})u \]

\(\Sigma=\frac{1}{m}\sum_{i=1}^m x^{(i)}x^{(i)^T}\)

总的来说,如果要用一个一维向量来近似数据,就选 \(\Sigma\) 的主特征向量;如果要投影到一个k维子空间,就选k个特征向量(由此构成了一组正交基),对应地,如果要表示 \(x^{(i)}\) 就使用

\[ y^{(i)}= \begin{bmatrix} u_1^Tx^{(i)}\\ u_2^Tx^{(i)}\\ ...\\ u_k^Tx^{(i)} \end{bmatrix} \in R^k \]

作为 \(x^{(i)}\) 的一个近似,所以\(x^{(i)}\)就被降低到了k维。