矩阵力量:线性代数全彩图解+微课+Python编程
上QQ阅读APP看书,第一时间看更新

1.5 有数据的地方,定有统计

前文提到,图1.20所示鸢尾花数据每一列代表鸢尾花的一个特征,如花萼长度(第1列,列向量x1)、花萼宽度(第2列,列向量x2)、花瓣长度(第3列,列向量x3)和花瓣宽度(第4列,列向量x4)。这些列向量可以看成是X1X2X3X4四个随机变量的样本值集合。

从统计视角来看,我们可以计算样本数据各个特征的均值(µj)和不同特征上样本数据的均方差(σj)。图1.20中四幅子图中的曲线代表各个特征样本数据的概率密度估计(probability density estimation)曲线。有必要的话,我们还可以在图中标出µjµj±σjµj±2σj对应的位置。

图1.20 鸢尾花数据每个特征的基本统计描述

实际应用时,我们还会对原始数据进行处理,常见的操作有去均值(demean)、标准化(standardization)等。

多个特征之间的关系,我们可以采用格拉姆矩阵(Gram matrix)、协方差矩阵(covariance matrix)、相关性系数矩阵(correlation matrix)等矩阵来描述。

图1.21所示为本书后续要用到的鸢尾花数据矩阵X衍生得到的几种矩阵。注意,图1.2和图1.21中矩阵X的热图采用不同的色谱值。

图1.21 鸢尾花数据衍生得到的几个矩阵(图片来自本书第24章)

本书第22章将介绍如何获得图1.21所示的矩阵,本书第24章将探讨图1.21中主要矩阵和各种矩阵分解(matrix decomposition)之间的有趣关系。

本章只配套一个代码文件Streamlit_Bk4_Ch1_01.py。这段代码中,我们用Streamlit和Plotly分别绘制了鸢尾花数据集的热图、平面散点图、三维散点图、成对特征散点图。这四幅图都是可交互图像。

本章以向量为主线,回顾了《数学要素》“鸡兔同笼三部曲”的主要内容,预告了本书的核心内容。目前不需要大家理解本章提到的所有术语,只希望大家记住以下几句话:

有数据的地方,必有矩阵!

有矩阵的地方,更有向量!

有向量的地方,就有几何!

有几何的地方,皆有空间!

有数据的地方,定有统计!

对线性代数概念感到困惑的读者,推荐大家看看3Blue1Brown制作的视频。很多视频网站上都可以找到译制视频。如下为3Blue1Brown线性代数部分网页入口:

◄ https://www.3blue1brown.com/topics/linear-algebra