SPSS多层感知器 (MLP)神经网络预测全国污染物综合量数据

拓端tecdat

2024-04-12 帮助1人

全文链接：tecdat.cn/?p=33380

原文出处：拓端数据部落公众号

随着全球经济的不断发展，污染物的排放和环境污染问题日益严重。解决这一问题的关键在于有效地利用污染物资源，以降低对环境的负面影响。综合利用污染物资源不仅有助于减少所需的原材料消耗，还有助于降低环境排放和废物处理的成本。因此，探索和预测全国污染物综合利用量数据，对于制定相关政策和促进可持续发展至关重要。

传统的污染物综合利用量数据预测方法主要基于统计模型，但其在处理非线性复杂关系时表现出局限性。近年来，神经网络模型作为一种强大的数据建模工具，被广泛应用于各个领域的预测和决策支持任务。在本研究中，我们将利用SPSS工具基于多层感知器（MLP）神经网络来预测全国污染物综合利用量数据。

本研究的目标是通过构建一个可靠的预测模型，帮助客户分析并预测未来全国范围内的污染物综合利用量。首先，我们将收集并整理全国各地的污染物综合利用量数据，并进行预处理以消除异常值和缺失数据。接下来，我们将使用SPSS工具中的MLP神经网络算法，通过对历史数据的学习和训练，建立一个能够准确预测未来污染物综合利用量的模型。

多层感知器 (MLP)

在多层感知器（MLP）对话框中，你可以选择你想包含在模型中的变量。用神经网络技术探索数据的结果可以用多种图形格式表示。这个简单的条形图是多种选择中的一种。

所示的多层感知器，数据前馈式通过输入层、隐藏层传递到输出层。

■ 选项“结构”用来设置神经网络的结构，您可以设定：

– 是否使用自动选择结构– 神经网络的隐藏层个数

– 隐藏层单元之间的激活函数（双曲函数或者S型函数）– 输出层单元之间的激活函数（标识，双曲, S型, SoftMax函数）

MLP通过多层感知器来拟合神经网络。多层感知器是一个前馈式有监督的结构。它可以包含多个隐藏层。一个或者多个因变量，这些因变量可以是连续型、分类型、或者两者的结合。如果因变量是连续型，神经网络预测的连续值是输入数据的某个连续函数。如果因变量是分类型，神经网络会根据输入数据，将记录划分为最适合的类别。

确定被解释变量和解释变量

被解释变量：污染物综合利用量（Y, Utility）

解释变量：

(1) 目标变量：污染物综合产生量（X1, Generate），作为污染物综合利用量的主要来源，污染物综合产生量（X1）的预测方向主要为与污染物综合利用量（Y）呈正相关关系，即污染物综合产生量越大，污染物综合利用量也越大。

(2) 控制变量：

国内生产总值（X3，GDP）（选取第二产业的国内生产总值），作为污染物综合利用量的主要控制变量，国内生产总值（X3）的预测方向主要为与污染物综合利用量（Y）呈正相关关系，即国内生产总值越大，污染物综合利用量也越大。

绿地面积（X2， Green），作为污染物综合利用量的主要去向，绿地面积（X2）的预测方向主要为与污染物综合利用量（Y）呈正相关关系，即绿地面积越大，污染物综合利用量也越大。

学新通

设置模型参数

分别设置因变量和自变量

学新通

确定训练集和测试集的比列

用神经网络技术探索数据的结果可以用多种图形格式表示。

学新通

得到模型的结果

学新通

首先得到是模型的训练误差。误差在0.04左右说明模型拟合较好，相对误差在0.01左右。

Network Information
Input Layer	Factors	1	Numbers
2	Generate(X1)
3	Green(X2)
4	GDP(X3)
	Number of Unitsa	310
Hidden Layer(s)		Number of Hidden Layers	1
Number of Units in Hidden Layer 1a	13
Activation Function	Hyperbolic tangent
Output Layer	Dependent Variables	1	Utilize(Y)
Number of Units	1
Rescaling Method for Scale Dependents	Standardized
Activation Function	Identity
Error Function	Sum of Squares
a. Excluding the bias unit

然后是神经网络的特征信息，该模型一共有1个隐藏层 13个神经元

然后得到神经网络的预测值

学新通

和预测的残差值

学新通

可以看到预测的残差均匀分布在0线周围。说明模型拟合较好。

然后输出模型的重要变量。

基于神经网络的属性重要性评价是以神经网络为模型来衡量模型中输入变量对模型输出的影响程度。它一方面可以神经网络为工具，按照重要性对属性排序；另一方面还可增加神经网络的解释性、减少网络的复杂度、简化网络的结构、提高网络的泛化能力。从结果中可以看到number是最重要的变量们其次是污染物综合产生量然后是绿地面积然后是GDP，最后是year。

自变量的重要性
	重要性	标准化的重要性
Numbers	.327	100.0%
Generate(X1)	.195	59.5%
Green(X2)	.233	71.2%
GDP(X3)	.206	62.9%
Year	.039	11.8%

学新通

代码：

*Multilayer Perceptron Network. MLP UtilizeY (MLEVEL=S) BY Numbers GenerateX1 GreenX2 GDPX3   /PARTITION  VARIABLE=Year   /ARCHITECTURE   AUTOMATIC=YES (MINUNITS=1 MAXUNITS=50)   /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.0000005 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET    =0.5 MEMSIZE=1000   /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION IMPORTANCE   /PL

最后我们得到了以下结果：

学新通

学新通最受欢迎的见解

1.R语言实现CNN（卷积神经网络）模型进行回归

2.r语言实现拟合神经网络预测和结果可视化

3.python用遗传算法-神经网络-模糊逻辑控制算法对乐透分析

4.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

5.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

6.Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

7.用于NLP的seq2seq模型实例用Keras实现神经机器翻译

8.R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行时间序列深度学习预测

9.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测