1、基于多因素选择和误差修正的 BP 神经网络港口货物吞吐量预测杨思凡摘要:港口货物吞吐量预测对我国对外进出口贸易、沿海进出设施建设以及相关政策的发布具有重要参考意义,然而港口货物吞吐量数据表现出不平稳和非线性特性,给预测带来了一定的难度。因此,文章提出基于多因素选择和误差修正的 BP 神经网络港口货物吞吐量预测。首先,根据已有文献研究得出港口货物吞吐量的有关影响因素,包括 GDP、进出口总额、社会消费品零售总额、泊位个数、码头长度、货运量数据等。其次,运用多元線性回归分析对相关影响因素进行处理,选择相关程度高和影响程度大的因素作为港口货物吞吐量的输入。然后,用 BP 神经网络对其进行预测,得出该
2、阶段的预测值,该结果与实际值相近,但仍存在一定差距。由此本文对其预测结果进行误差修正,获得最终预测值。最后,为验证模型的有效性,对本模型进行实证分析,实验结果表明,结合多因素和误差修正的混合预测方法能更准确的拟合历史数据,得到更优化的预测结果。关键词:多因素模型;误差修正;BP 神经网络;港口货物吞吐量预测Abstract:Port cargo throughput prediction has important reference significance forChinas foreign import and export trade,coastal facilities constr
3、uction andthe release of relevant policies,but the cargo throughput data of the portshows unsteady and nonlinear characteristics which brings certain difficultiesto the prediction.Therefore,this paper proposes a BP neural network cargothroughput prediction based on multi-factor and error correction.
4、Firstly,according to the existing literature,relevant influencing factors of portcargo throughput are obtained,which mainly include GDP,total volume ofimports and exports,total retail sales of social consumer goods,number ofberths,length of terminals,data of freight volume,etc.Secondly,multiple line
5、ar regression analysis was used to deal with the relevantfactors,and the factors with high degree of correlation and large degree ofinfluence are selected as the input of port cargo throughput.Then,BP neuralnetwork is used to predict it,and the predicted value of this stage isobtained.The result is
6、close to the expected output,but there is still agap.The error correction of the prediction results is carried out to obtainthe final prediction value.Finally,in order to verify the validity of themodel,the empirical analysis of the model is carried out.The experimentalresults show that the hybrid f
7、orecasting method combined with multi factor anderror correction can more accurately fit the historical data and get moreoptimized forecasting results.Key words:multi-factor model;error correction;BP neural network;port throughput forecast0引言港口货物吞吐量体现着港口经营的成果,是我国港口建设、运输能力、经济发展实力的体现。随着我国经济实力的不断增长,国际贸
8、易规模不断增大,贸易活动与港口建设的相互推进,促进着经济再生长。而对我国港口货物吞吐量的预测有利于国家对港口的发展进行更有效的规划建设、结构调整等,以此确保国际商贸快速稳固发展、保障国家参与国际经济合作和竞争实力。因此,有必要提高港口吞吐量的预测精确度。目前,已有许多研究者对港口货物吞吐量预测的方法进行研究,主要分成统计计量方法和人工智能方法。其中统计计量方法包括指数平滑、ARIAM 和灰色模型。贡文伟等1提出了指数平滑法结合灰色预测模型。Min Liu 等2探讨了指数平滑法的波动率预测。薛俊强3利用 ARIMA 模型对宁波港的集装箱吞吐量进行预测。赵一棋等4基于时间序列模型,构建 ARIMA
9、 模型对其月度数据进行预处理后预测。刘明英等5采用灰色预测方法针对特定港口季度吞吐量进行预测,用灰色模型抵消数据统计不完善的缺点,但效果有待提高。田雪等6采用灰色模型对曹妃甸港口的货物吞吐量进行研究。上述研究在线性假设条件下表现出良好的预测效果,但是港口货物吞吐量具有非线性、非平稳性等特征的情况下,统计计量模型对复杂性、波动性数据的预测结果不够完善,精确度也有待提高。人工智能方法具有较强的非线性映射能力,被广泛的应用于港口货物吞吐量预测当中,主要包括 BP、RBF、Elman 神经网络模型。陈锦文、孙巧萍等7,8通过对 BP 神经网络的改进对港口吞吐量进行预测。席申娥等9提出双时间序列与 RB
10、F 的组合预测方法,首先利用 ARIMA 模型和灰色预测模型分别对历史数据进行预测,选取灰色时间序列作为RBF 的输入量进行预测。杨珩等10利用 Elman 神經网络模型对港口吞吐量进行预测。以上研究者针对港口货物吞吐量的研究只是单纯对港口货物吞吐量历史数据进行预测,忽略了相关因素对港口货物吞吐量的影响。因此,本文考虑相关影响因素对港口货物吞吐量预测的重要性,提出将重要影响要素与历史数据相结合进行预测。以往对港口货物吞吐量的预测研究忽视了预测误差的意义,没有从误差中提取有效的信息并加以利用,造成预测结果不理想的情况。Hongyuan Luo 等11提出基于误差修正模型的精度明显高于修正前的预测
11、模型。目前基于误差修正的研究越来越多,并且在预测方面取得了较好的研究成果,但在货物吞吐量上还没有应用。BP 神经网络可以对多维数据进行较好的预测,但是预测结果的精确度还有待提高。王洪乐等12利用 BP 神经网络对数控机床进行了综合误差弥补。因此,本文提出利用 BP 神经网络模型对初始预测的结果进行误差修正,优化预测结果。综上可知,现有研究存在两个问题:一是现有研究仅利用港口货物吞吐量单项数据研究,没有考虑相关因素对港口货物吞吐量的预测结果的影响。二是现有研究模型所得出的预测结果的精确度还有待提高,并且没有对结果进行误差修正,因此采用误差修正可以进一步提高预测的精确程度。针对上述问题,本文提出基
12、于多因素选择和误差修正的 BP 神经网络预测模型对我国港口货物吞吐量进行预测。首先,利用 SPSS 软件对可能的影响因素进行多元线性模型分析,并选取影响程度较大并且线性不相关的三个因素作为港口货物吞吐量的影响因素。其次,用 BP 神经网络对其组成的多维时间序列进行预测,得到预测结果。然后,经过初步对比分析,多维时间序列预测结果较好,但其预测精度仍有提升较大空间,所以对初次 BP预测结果进行误差修正,并输出最终预测值。最后,为验证模型的有效性和适用性,运用相对误差对预测结果进行分析。结果表明,此模型的拟合程度较高,能够更精确的预测出港口货物吞吐量。该方法考虑了主要影响因素的影响,并对预测结果进行
13、了误差修正,提高了预测的合理性,并且在预测精度上也达到了满意效果,为后续的研究提供了新思路。1基本模型1.1 多元线性回归多元线性回归模型通常是由一个因变量和与其线性相关的多个自变量组成的模型。设因变量 y 和自变量 x1,x2,xn 均有 n 组数据,若 y 与 x1,x2,xn 线性相关,则1.2 因素选择因素筛选方法主要有多元线性回归分析、主成分分析和灰色关联分析法。刘枚莲13在研究港口货物吞吐量影响因素的筛选方法时提出主成分分析法无法考虑各指标之间的关联度。而灰色关联分析法缺乏客观性和确定性。因此本文选择多元线性回归分析作为筛选关键指标的方法。主要步骤如下:Step1:将港口货物吞吐量
14、设为因变量,GDP、社会消费品零售总额、码头长度、泊位个数和进出口总额设为自变量建立多元线性回归模型。Step2:对模型进行共线性检验,发现模型存在多重共线性。对模型进行调整,采用逐步回归法。分别对 5 个自变量和因变量做一元线性回归分析,根据拟合优度选出第一个关键指标。Step3:将剩余变量分别与选出的自变量和因变量做二元线性回归分析,综合拟合优度和 F 值,选出第二个关键指标。以此类推选出第三个关键指标。Step4:剩余 2 个变量分别与选出的 3 个自变量和因变量做四元线性回归分析,由于 P值均过大,因此剔除这 2 个变量,选定三个关键指标。1.3 BP 神经网络BP 神经网络是一种按照
15、误差反向传播算法训练的多层前馈网络,在传统神经网络的输入层和输出层之间加入隐含层来处理非线性问题。BP 神经网络经过将信号正向传播后,逆向进行误差反馈,通过自行调整输入层与隐含层以及隐含层与输出之间的阈值和连接强度,反复学习,训练出与与期望输出拟合最好所相对应的权值和阈值。模型结构图如图 1所示。2基于多因素选择和误差修正的 BP 神经网络预测模型本文提出的基于多因素选择和误差修正的 BP 神经网络港口货物吞吐量预测模型基本步骤如下:Step1:多因素选择。对港口货物吞吐量及其影响因素做多元线性回归分析,由于自变量之间存在多重共线性,对模型进行调整,采用逐步回归法,综合拟合优度和显著性效果,选
16、出三个因素,分别为码头长度、GDP 和进出口总额。Step2:BP 神经网络预测。将上述三个影响因素与历史数据共同作为输入量,并用 BP神经网络进行预测。Step3:误差修正。前一阶段的预测精度仍有待提高,因此进行误差修正,将 BP 神经网络预测出的数据与历史数据相减得到的误差序列,此时再用 BP 神经网络对误差序列进行预测,并将预测结果与 BP 预测结果相加得到港口货物吞吐量最终预测值。Step4:对比分析。为验证模型的有效性,利用 MAPE 值、相对误差和误差均值作为评价指标进行分析。并与其他模型进行对比,结果表明,本文提出的基于多因素和误差修正的 BP 神经网络港口货物吞吐量预测模型具有更优预测效果的结论。3实例分析3.1 数据来源与评价指标选择3.1.1 数据来源本文选择 2000-2018 年全国港口货物吞吐量及其影响因素的年度数据进行分析,数据来源于国家统计局(http:/ 3 所示。样本数据为进出口总额、GDP 及码头长度的年度数据,将样本数据分为两个部分,2000-2014 年的作为训练集,2015-2018 年的作为测试集。