1.5 有数据的地方，定有统计_矩阵力量：线性代数全彩图解+微课+Python编程-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

1.5 有数据的地方，定有统计

前文提到，图1.20所示鸢尾花数据每一列代表鸢尾花的一个特征，如花萼长度（第1列，列向量x₁）、花萼宽度（第2列，列向量x₂）、花瓣长度（第3列，列向量x₃）和花瓣宽度（第4列，列向量x₄）。这些列向量可以看成是X₁、X₂、X₃、X₄四个随机变量的样本值集合。

从统计视角来看，我们可以计算样本数据各个特征的均值（µ_j）和不同特征上样本数据的均方差（σ_j）。图1.20中四幅子图中的曲线代表各个特征样本数据的概率密度估计（probability density estimation）曲线。有必要的话，我们还可以在图中标出µ_j、µ_j±σ_j、µ_j±2σ_j对应的位置。

图1.20　鸢尾花数据每个特征的基本统计描述

实际应用时，我们还会对原始数据进行处理，常见的操作有去均值（demean）、标准化（standardization）等。

多个特征之间的关系，我们可以采用格拉姆矩阵（Gram matrix）、协方差矩阵（covariance matrix）、相关性系数矩阵（correlation matrix）等矩阵来描述。

图1.21所示为本书后续要用到的鸢尾花数据矩阵X衍生得到的几种矩阵。注意，图1.2和图1.21中矩阵X的热图采用不同的色谱值。

图1.21　鸢尾花数据衍生得到的几个矩阵（图片来自本书第24章）

本书第22章将介绍如何获得图1.21所示的矩阵，本书第24章将探讨图1.21中主要矩阵和各种矩阵分解（matrix decomposition）之间的有趣关系。

本章只配套一个代码文件Streamlit_Bk4_Ch1_01.py。这段代码中，我们用Streamlit和Plotly分别绘制了鸢尾花数据集的热图、平面散点图、三维散点图、成对特征散点图。这四幅图都是可交互图像。

本章以向量为主线，回顾了《数学要素》“鸡兔同笼三部曲”的主要内容，预告了本书的核心内容。目前不需要大家理解本章提到的所有术语，只希望大家记住以下几句话：

有数据的地方，必有矩阵！

有矩阵的地方，更有向量！

有向量的地方，就有几何！

有几何的地方，皆有空间！

有数据的地方，定有统计！

对线性代数概念感到困惑的读者，推荐大家看看3Blue1Brown制作的视频。很多视频网站上都可以找到译制视频。如下为3Blue1Brown线性代数部分网页入口：

◄　https://www.3blue1brown.com/topics/linear-algebra