1.5 有数据的地方,定有统计
前文提到,图1.20所示鸢尾花数据每一列代表鸢尾花的一个特征,如花萼长度(第1列,列向量x1)、花萼宽度(第2列,列向量x2)、花瓣长度(第3列,列向量x3)和花瓣宽度(第4列,列向量x4)。这些列向量可以看成是X1、X2、X3、X4四个随机变量的样本值集合。
从统计视角来看,我们可以计算样本数据各个特征的均值(µj)和不同特征上样本数据的均方差(σj)。图1.20中四幅子图中的曲线代表各个特征样本数据的概率密度估计(probability density estimation)曲线。有必要的话,我们还可以在图中标出µj、µj±σj、µj±2σj对应的位置。
图1.20 鸢尾花数据每个特征的基本统计描述
实际应用时,我们还会对原始数据进行处理,常见的操作有去均值(demean)、标准化(standardization)等。
多个特征之间的关系,我们可以采用格拉姆矩阵(Gram matrix)、协方差矩阵(covariance matrix)、相关性系数矩阵(correlation matrix)等矩阵来描述。
图1.21所示为本书后续要用到的鸢尾花数据矩阵X衍生得到的几种矩阵。注意,图1.2和图1.21中矩阵X的热图采用不同的色谱值。
图1.21 鸢尾花数据衍生得到的几个矩阵(图片来自本书第24章)
本书第22章将介绍如何获得图1.21所示的矩阵,本书第24章将探讨图1.21中主要矩阵和各种矩阵分解(matrix decomposition)之间的有趣关系。
本章只配套一个代码文件Streamlit_Bk4_Ch1_01.py。这段代码中,我们用Streamlit和Plotly分别绘制了鸢尾花数据集的热图、平面散点图、三维散点图、成对特征散点图。这四幅图都是可交互图像。
本章以向量为主线,回顾了《数学要素》“鸡兔同笼三部曲”的主要内容,预告了本书的核心内容。目前不需要大家理解本章提到的所有术语,只希望大家记住以下几句话:
有数据的地方,必有矩阵!
有矩阵的地方,更有向量!
有向量的地方,就有几何!
有几何的地方,皆有空间!
有数据的地方,定有统计!
对线性代数概念感到困惑的读者,推荐大家看看3Blue1Brown制作的视频。很多视频网站上都可以找到译制视频。如下为3Blue1Brown线性代数部分网页入口:
◄ https://www.3blue1brown.com/topics/linear-algebra