1、基于 ARIMA 模型的新冠肺炎序列分析预测纪安之摘要:利用国家卫生健康委公开的 2020 年 1 月 24 日 24 时至 2020 年 3 月 29 日24 时新冠肺炎累计确诊病例数据,采用时间序列分析方法建立 ARIMA 模型进行拟合分析,并预测其未来走势。用 SAS 软件编程,结果表明,原序列 2 阶差分后为平稳非白噪声序列,ARIMA(0,2,1)模型可以较好地拟合原序列,并通过了模型的显著性检验和参数的显著性检验。未来 5 日的预测结果与实际数据吻合较好。关键词:新型冠状病毒肺炎;时间序列;ARIMA;预测;SASAbstract:Using the data of 2019-nC
2、oV pneumonia cumulative diagnosis from 24:00 onJanuary 24,2020 to 24:00 on March 29,2020,the ARIMAmodel was established by time series analysis to analyze the trendand predict the future trend.The results show that the originalsequence is a stationary non white noise sequence after the second-order
3、difference,ARIMA(0,2,1)model can fit the originalsequence well and pass the significance test of the model and thesignificance test of the parameters.The predicted results in thenext five days are in good agreement with the actual data.Key words:2019-nCoV;time series;ARIMA;prediction;SAS1绪论2019 年 12
4、 月,新型冠状病毒肺炎在湖北省武汉市出现,并迅速蔓延至武汉市以外地区1。2020 年 1 月 12 日世界卫生组织正式将造成武汉肺炎疫情的新型冠状病毒命名为“2019 新型冠状病毒”(2019-nCoV)2。新型冠状病毒肺炎属于属冠状病毒,人群普遍易感3-4。新冠肺炎疫情发生后,党中央高度重视,及时部署了防控措施:延长春节假期、延迟开学、灵活复工、错峰出行5。通过采取一系列防控措施,目前我国疫情防控形势持续向好,多省实现“零增长”,武汉疫情快速上升的态势也得到控制。新型冠状病毒肺炎疫情是我国自新中国成立以来传播速度最快、感染范围最广、防控难度最大的一次重大突发公共卫生事件。截止 3 月 29
5、日 24 时,全国累计报告确诊 81470 例,累计治愈出院病例 75770 例,累计死亡病例 3304 例6。为进一步了解 2019 新型冠状病毒疫情的变化情况并预测其未来走势,现利用国家卫生健康委每日公开累计确诊病例数据,采用时间序列分析方法对2019 新型冠状病毒病例数据进行分析。2方法2.1 数据来源本次研究选取的样本数据来源于国家卫生健康委自 2020 年 1 月 24 日 24 时至2020 年 3 月 29 日 24 时的公开累计确诊病例数据,如表 1 所示。2.2 ARIMA 模型美国 Wisconsin 大学的 Box 和 Jenkins 提出的时间序列(Time-serie
6、sApproach)分析方法中,求和自回归移动平均模型(AutoregressiveIntegrated Moving Average Model,简称 ARIMA)是主要运用于分析非平稳的、不具有季节性变化趋势的时间序列7。ARIMA 模型包括自回归(AutoRegressive,AR)模型,移动平均(Moving Average,MA)模型,或自回归移动平均模型(Auto RegressiveMoving Average,ARMA)模型8几种特殊情况。ARIMA(p,d,q)模型结构如下。其中 p 为自回归项数,q 为移动平均项数,d为时间序列成为平稳时所做的差分次数9。2.3 ARIMA
7、 模型建模步骤平穩性检验:根据观察值序列的时序图判断序列的平稳性。当时间序列呈周期性或者有显著趋势时,对原序列数据进行差分运算;白噪声检验:在检验的显著性水平取 0.05 的条件下,当延迟 6 阶的 检验统计量的 P 值小于 0.05,则该差分序列不能视为白噪声序列;拟合 ARMA 模型:根据自相关图和偏自相关图的性质,选择阶数适当的 ARMA(p.q)模型进行拟合;在条件最小二乘估计原理下估计模型中未知参数的值;对残差序列进行检验:当拟合检验统计量的 P 值都显著大于显著性水平0.05,则认为残差序列即为白噪声序列;如果拟合模型通不过检验,转向步骤,重新选择模型再拟合;利用拟合模型,预测序列
8、的将来走势。3建模及预测3.1 平稳性检验首先,绘制监测数据序列时序图,该序列时序图如图 1 所示,新冠肺炎监测数据具有明显的持续增长趋势,为典型的非平稳序列。对原序列进行 2 阶差分运算提取数据序列中的确定性信息,如图 2 所示,2 阶差分后序列始终围绕在均值附近随机波动,即差分后序列没有显著非平稳特征。为了进一步确定平稳性,考察差分后的序列的自相关图,如图 3 所示。自相关图显示序列具有很强的短期相关性。原序列 2 阶差分后序列平稳。3.2 白噪声检验对平稳的 2 阶差分序列进行白噪声检验,序列随机性检验结果如表 2 所示。在检验的显著性水平取 0.05 的条件下,延迟 6 阶的 x2 检
9、验统计量的 P 值为0.0333,小于?琢=0.05,可以以 1-?琢的置信水平拒绝原假设,认为差分后序列蕴含很强的相关信息,所以该差分后序列为平稳非白噪声序列。3.3 拟合 ARMA 模型如图 3 所示,综合 2 阶差分后序列的自相关图显示出自相关系数迅速衰减到零,自相关图呈现典型的 1 阶截尾性(q=1),而偏自相关系图显示出非截尾的性质,拟合模型定阶为 MA(1)。原序列差分后平稳,差分次数为 d=2,因此实际上是用 ARIMA(0,2,1)模型拟合原序列。如表 3 所示,运用条件最小二乘估计确定该模型的口径为:3.4 模型检验确定了拟合模型的口径之后,检验模型的显著性=0.05,检验结
10、果如表 4 所示。残差白噪声检验结果显示延迟 6 阶、12 阶、18 阶 LB 检验统计量的 P 值均显著大于 0.05,认为拟合模型的残差序列通过白噪声检验,该 ARIMA(0,2,1)模型显著有效。再检验参数的显著性 0.05),检验结果如表 4 所示。均值MU 的 t 检验统计量的 P 值为 0.7894,大于=0.05,即均值 MU 不显著。剔除常数项后重新拟合模型,再次估计模型中未知参数的结果,检验结果如表5 所示。参数 MA1,1 的 t 检验统计量的 P 值小于 0.0001,认为该参数显著。因此,ARIMA(0,2,1)模型是该序列的有效拟合模型。3.5 ARIMA 模型预测利
11、用 ARIMA(0,2,1)模型对新冠肺炎监测数据序列作 5 天预测。预测值、实际值、标准误差和 95%的置信区间如表 3-表 5 所示。从预测结果(表 6)来看,预测数据和实际数据吻合较好。4结论综上所述,ARIMA(0,2,1)模型对我国新型冠状病毒疫情走势具有较高的拟合度,可用于新冠肺炎监测数据序列的短期预测,可为疫情的防控效果以及发展趋势提供参考,为未来几天的疫情干预决策提供一定的政策依据。参考文献:1中国疾病预防控制中心新型冠状病毒肺炎应急响应机制流行病学组.新型冠状病毒肺炎流行病学特征分析J.中华流行病学杂志,2020,41(2):145-151.2世界卫生组织将新型冠状病毒感染的
12、肺炎命名为“Cov-id-19”ER/OL.(2020-02-11)2020-02-21.http:/WWW 2020 年春节假期的通知EB/OL.2020-01-27.http:/ 3 月 29 日 24 时新型冠状病毒肺炎疫情最新情况EB/OL.2020-03-30.http:/ qtb/202003/c46e73d692d047619bfb29680950d88d.shtml.7孟凡东,吴迪,隋承光.2004-2015 年中国狂犬病发病数据 ARIMA 乘积季节模型的建立及预测J.中国卫生统计,2016,33(3):389-391.8张美英,何杰.时间序列预测模型研究综述J.数学的实践与认识,2011,41(18):189-195.9王燕.应用时间序列分析M.四版.北京:中国人民出版社,2015:1-127.