![深度学习详解:基于李宏毅老师“机器学习”课程](https://wfqqreader-1252317822.image.myqcloud.com/cover/19/51893019/b_51893019.jpg)
上QQ阅读APP看书,第一时间看更新
2.5 不匹配
图2.13 中的横轴是从2021年1月1日开始计算的天数,红色线是真实的数据,蓝色线是预测的结果.2月26日是 2021年观看次数最高的一天,与机器的预测差距非常大,误差为2580.几个模型不约而同地推测2月26日应该是个低点,但实际上,2月26日是一个峰值. 这不能怪模型,因为根据过去的数据,周五晚上大家都出去玩了. 但是2月26日出现了反常的情况,这种情况应该算是另一种错误形式——不匹配(mismatch).
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx4787.jpg?sign=1739283977-os0hPFDh8FTovyZ6cCnSEMKZYI18BZ2Q-0-6db43912891b573d9f967705415d39a0)
图2.13 另一种错误形式——不匹配
不匹配和过拟合不同,一般的过拟合可以用收集更多的数据来克服,但不匹配是指训练集和测试集的分布不同,训练集再增大其实也没有帮助了.假设在分训练集和测试集的时候,使用2020年的数据作为训练集,使用2021年的数据作为测试集,不匹配的问题可能就会很严重.因为2020年的数据和2021年的数据背后的分布不同.图2.14 演示了图像分类中的不匹配问题. 增加数据也不能让模型做得更好,所以这种问题要怎么解决、匹不匹配,要看对数据本身的理解. 我们可能要对训练集和测试集的产生方式有一些理解,才能判断模型是不是遇到了不匹配的情况.
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx4794.jpg?sign=1739283977-HPSb6uNafXdt2L1HChPrTSyI2UJ5I8ju-0-81d10b9c1b81cd44430318b306f04de0)
图2.14 图像分类中的不匹配问题