2.4 使用最后已知数值进行预测
前面我们使用不同时期的均值来开发基线模型。到目前为止,最好的基线是我们训练集中最近一年记录的均值,因为它产生了最低的MAPE。我们从这个基线中理解到,未来的数值取决于过去的数值,但不是那些太遥远的。事实上,预测1960~1979年的平均每股收益比预测1979年的平均每股收益更糟糕。
因此,我们可以假设使用训练集的最后已知数值作为基线模型能提供更好的预测,这将转化为更接近0%的MAPE。让我们来验证一下这个假设。
第一步是提取训练集的最后已知数值,它对应于1979年最后一个季度记录的EPS:
当我们检索1979年最后一个季度记录的每股收益时,我们得到的数值为9.99美元。因此,我们预测强生公司1980年四个季度的每股收益为9.99美元。
同样,我们将追加一个名为pred_last的新列来保存预测。
然后,使用我们之前定义的相同MAPE函数,我们可以评估这个新基线模型的性能。同样,我们把来自test的实际值和来自test的pred_last列的预测值传递给函数:
这样MAPE值为30.45%。我们可以在图2.9中看到预测。
你能重新创建图2.9吗
尝试自己制作图2.9!作为数据科学家,以易于理解的方式向非领域内人员传达结果非常重要。因此,绘制显示预测结果的图表是一项需要培养的重要技能。
新假设似乎并没有改善我们建立的上一个基线,因为MAPE为30.45%,而我们使用1979年的平均每股收益获得的MAPE为15.60%。因此,这些新的预测与观测值在1980年相差甚远。
这可以解释为,每股收益表现出周期性行为,在前三个季度较高,然后在最后一个季度下降。使用最后一个已知数值不会考虑季节性,因此我们需要使用另一种简单的预测技术,看看是否可以产生更好的基线。
图2.9 预测作为基线模型的训练集的最后已知值。我们可以看到,这个基线的MAPE为30.45%,比我们的第一个基线要好,但性能不如我们的第二个基线