2.2.2 数据处理_机器学习系统：设计和实现-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

2.2.2　数据处理

配置好运行信息后，首先讨论数据处理API的设计。这些API提供了大量Python函数，支持用户用一行命令即可读入常见的训练数据集，如MNIST（Mixed National Institute of Standards and Technology Database）、CIFAR（Canadian Institute For Advanced Research）、COCO（Microsoft Common Objects in Context）等。在加载之前需要下载数据集存放在./datasets/MNIST_Data路径中；MindSpore提供了用于数据处理的API模块mindspore.dataset，用于存储样本和标签。在加载数据集前，通常会对数据集进行一些处理，mindspore.dataset也集成了常见的数据处理方法。代码2.2读取了MNIST的训练数据，其包含大小为28×28的6万张图片，返回DataSet对象。

代码2.2　读取MNIST训练数据

有了DataSet对象后，通常需要对数据进行增强，常用的数据增强包括翻转、旋转、剪裁、缩放等；在MindSpore中使用map映射函数将数据增强的操作映射到数据集中，之后进行打乱（Shuffle）和批处理（Batch），如代码2.3所示。

代码2.3　数据处理