1.本技术涉及工业过程检测技术领域,特别涉及一种基于整体优化的即时学习的软测量建模方法、装置、电子设备及存储介质。
背景技术:
2.在现代工业生产过程中,许多重要质量变量(例如:油品黏度、组分等)难以实时测量,给化工过程控制与优化带来很大影响。因为化工生产过程存在样品现场取样困难、分析仪器成本高以及分析时间滞后等问题,在实际生产过程中,往往难以使用在线分析仪表和离线化验等方式对质量变量进行实时测量,无法对质量变量形成闭环控制。因此,质量变量如何实时获取成为过程控制首先要解决的问题。由此,软测量进入了过程工业控制领域的研究视线。
3.常用的数据驱动软测量建模方法包括主元回归(principal component regression,pcr)、偏最小二乘回归(partial least square regression,plsr)以及人工神经网络(ann)。上述软测量算法建立的模型属于离线模型,模型建立后不会随着生成过程的改变而自适应调整,无法跟踪生产状态的变化,从而导致预测精度逐渐下降。因此,软测量模型的自动维护成为了算法研究与改进的重点。因此,为了适应现代化工生产过程表现出的多模态特性和时变特性,各种在线建模算法已经被广泛应用于生产过程的监控与质量变量预测。
4.目前,主流的在线软测量建模算法包括:滑动窗算法、递归算法、时间差分算法以及即时学习算法。其中,前三种都是根据时间相关性更新模型,属于时间自适应算法;即时学习算法是基于空间相关性对模型进行更新和维护,属于空间自适应算法。相比其他算法,即时学习算法的优势在于可以更好的适应生产过程中的突变现象,并且由于该算法对每个样本都建立局部模型,因此,也可以很好的描述过程变量之间的非线性关系。
5.相似样本的选择或者样本权重的计算是即时学习算法的核心步骤,会在很大程度上影响算法的预测精度。对于传统即时学习算法,一方面,算法中一些可调参数的选择往往是一件非常困难的事,例如lwpls算法中的核宽度参数以及lwls算法中的相似样本的数目,这些参数的选择并没有明确的理论经验指导,并且会对模型的性能产生较大影响;另一方面,算法的两个核心步骤:选择相似样本和建立局部模型是相互独立的,这可能导致选择出的相似样本对于局部模型来说是次优的。即选择的相似样本用于建立局部模型,但建立局部模型获得的信息并没有用于指导相似样本的选择。由上可知,采用传统即时学习算法建立的模型存在预测精度差的问题,亟待解决。
技术实现要素:
6.本技术提供一种基于整体优化的即时学习的软测量建模方法、装置、电子设备及存储介质,以解决现有技术预测精度差等问题。
7.本技术第一方面实施例提供一种基于整体优化的即时学习的软测量建模方法,包
括以下步骤:根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离;将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,并利用所述目标协同表示模型计算所述预设辅助变量数据集中各个历史样本的权重矩阵;根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数;利用所述加权岭回归模型系数计算所述查询数据的预测值。
8.可选地,在本技术的一个实施例中,所述根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型之前,还包括:构建存储工业过程中的所述预设辅助变量数据集;对所述预设辅助变量数据集进行分析,得到所述辅助变量数据集中各个样本对应的真实质量变量值;根据所述辅助变量数据和所述真实质量变量值构建初始训练数据集,并对所述训练数据集进行标准化处理,得到所述目标训练数据集。
9.可选地,在本技术的一个实施例中,所述标准化处理为:
[0010][0011]
其中,为需要标准化的数据集,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。
[0012]
可选地,在本技术的一个实施例中,所述根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,还包括:
[0013]
根据所述目标训练数据集建立离线岭回归模型,优化目标为:
[0014][0015]
其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数,x
l
为标准化后的辅助变量数据,为标准化后的真实质量变量值;
[0016]
求解所述离线岭回归模型的优化目标,得到所述离线岭回归模型的岭回归系数w0:
[0017]
w0=(x
l
x
lt
λ0×
i)-1
x
lyl
[0018]
其中,x
lt
为数据x
l
的转置,i为单位矩阵;
[0019]
根据所述岭回归系数计算各个输入变量的权重矩阵得到所述预设输入变量权重矩阵:
[0020][0021]
其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。
[0022]
可选地,在本技术的一个实施例中,所述根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离,将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,利用所述目标协同表示模型计算所述预设辅
助变量数据集中各个历史样本的权重矩阵,包括:
[0023]
根据所述预设输入变量权重矩阵计算所述查询数据与标准化的预设辅助变量数据集中所有样本的加权欧式距离:
[0024]
dxq=w
var
(xq×
1-x
l
)
[0025][0026]
其中,xq为查询数据,为对角矩阵且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加;
[0027]
建立所述查询数据与所述目标训练数据集的协同表示模型,并融合所述预设输入变量权重矩阵和所述加权欧式距离,优化目标为:
[0028][0029]
其中,b为协同表示系数,λ1为正则项系数,为二范数运算;
[0030]
计算所述标准化的预设辅助变量数据集与所述查询数据的协同表示系数b:
[0031]
b=(x
ltwvar
x
l
λ1d)-1
x
ltwvar
xq[0032]
利用所述协同表示系数得出所述目标训练数据集中各历史样本的权重矩阵:
[0033][0034]
其中,b1为向量b的第一个元素,bn为向量b的第n个元素。
[0035]
可选地,在本技术的一个实施例中,所述根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数,利用所述加权岭回归模型系数计算所述查询数据的预测值,包括:
[0036]
根据所述目标训练数据集与所述历史样本的权重矩阵建立所述加权岭回归模型,优化目标为:
[0037][0038]
其中,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0039]
将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,得出统一的优化目标为:
[0040][0041]
其中,a为两个算法优化目标的权重系数,b为协同表示系数,λ1为协同表示正则项系数,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0042]
计算所述加权岭回归模型系数w:
[0043]
[0044]
其中,
[0045]
利用所述加权岭回归模型系数计算所述查询数据的预测值
[0046][0047]
其中,为查询数据xq的转置。
[0048]
可选地,在本技术的一个实施例中,计算所述查询数据的实际值,将所述实际值与所述查询数据增加至所述目标训练数据集。
[0049]
本技术第二方面实施例提供一种基于整体优化的即时学习的软测量建模装置,包括:计算模块,用于根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离,将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,并利用所述目标协同表示模型计算所述预设辅助变量数据集中各个历史样本的权重矩阵;预测模块,用于根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数;利用所述加权岭回归模型系数计算所述查询数据的预测值。
[0050]
可选地,在本技术的一个实施例中,还包括:构建模块,用于构建存储工业过程中的所述预设辅助变量数据集;分析模块,用于对所述预设辅助变量数据集进行分析,得到所述辅助变量数据集中各个样本对应的真实质量变量值;预处理模块,用于根据所述辅助变量数据和所述真实质量变量值构建初始训练数据集,并对所述训练数据集进行标准化处理,得到所述目标训练数据集。
[0051]
可选地,在本技术的一个实施例中,所述标准化处理为:
[0052][0053]
其中,为需要标准化的数据集,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。
[0054]
可选地,在本技术的一个实施例中,还包括:
[0055]
建模模块,用于在根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,根据所述目标训练数据集建立离线岭回归模型,优化目标为:
[0056][0057]
其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数,x
l
为标准化后的辅助变量数据,为标准化后的真实质量变量值;
[0058]
求解模块,用于求解所述离线岭回归模型的优化目标,得到所述离线岭回归模型的岭回归系数w0:
[0059]
w0=(x
l
x
lt
λ0×
i)-1
x
lyl
[0060]
其中,x
lt
为数据x
l
的转置,i为单位矩阵;
[0061]
权重计算模块,用于根据所述岭回归系数计算各个输入变量的权重矩阵得到所述预设输入变量权重矩阵:
[0062][0063]
其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。
[0064]
可选地,在本技术的一个实施例中,所述计算模块,具体用于:
[0065]
根据所述预设输入变量权重矩阵计算所述查询数据与标准化的预设辅助变量数据集中所有样本的加权欧式距离:
[0066]
dxq=w
var
(xq×
1-x
l
)
[0067][0068]
其中,xq为查询数据,为对角矩阵且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加;
[0069]
建立所述查询数据与所述目标训练数据集的协同表示模型,并融合所述预设输入变量权重矩阵和所述加权欧式距离,优化目标为:
[0070][0071]
其中,b为协同表示系数,λ1为正则项系数,为二范数运算;
[0072]
计算所述标准化的预设辅助变量数据集与所述查询数据的协同表示系数b:
[0073]
b=(x
ltwvar
x
l
λ1d)-1
x
ltwvar
xq[0074]
利用所述协同表示系数得出所述目标训练数据集中各历史样本的权重矩阵:
[0075][0076]
其中,b1为向量b的第一个元素,bn为向量b的第n个元素。
[0077]
可选地,在本技术的一个实施例中,所述预测模块,具体用于:
[0078]
根据所述目标训练数据集与所述历史样本的权重矩阵建立所述加权岭回归模型,优化目标为:
[0079][0080]
其中,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0081]
将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,得出统一的优化目标为:
[0082][0083]
其中,a为两个算法优化目标的权重系数,b为协同表示系数,λ1为协同表示正则项系数,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0084]
计算所述加权岭回归模型系数w:
[0085][0086]
其中,
[0087]
利用所述加权岭回归模型系数计算所述查询数据的预测值:
[0088][0089]
其中,为查询数据xq的转置。
[0090]
可选地,在本技术的一个实施例中,还包括:扩充模块,用于计算所述查询数据的实际值,将所述实际值与所述查询数据增加至所述目标训练数据集。
[0091]
本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以执行如上述实施例所述的基于整体优化的即时学习的软测量建模方法。
[0092]
本技术第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以执行如上述实施例所述的基于整体优化的即时学习的软测量建模方法。
[0093]
由此,本技术至少具有如下有益效果:
[0094]
本技术通过将数据自表示算法引入即时学习中,并且针对即时学习的应用背景,对自表示算法进行改进,具体地,一方面,通过自表示算法计算样本权重的同时考虑到了输入变量的权重;另一方面,通过计算查询样本与历史样本之间的加权欧式距离,并且将其作为算法的正则项,从而融合了数据的局部空间距离信息。相比现有其他算法,本技术将相似样本的选择或者样本权重的计算转化为优化问题,提高了样本权重的合理性与可靠性。另外,相比传统算法中选择相似样本与建立局部模型相互独立,本技术通过一个统一的优化目标同时实现了选择相似样本与建立局部模型,提高了模型优化效率与预测精度。由此,解决了现有技术预测精度差等问题。
[0095]
本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
[0096]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0097]
图1为根据本技术实施例提供的一种基于整体优化的即时学习的软测量建模方法的流程图;
[0098]
图2为根据本技术一个实施例提供的脱丁烷塔(dcp)的过程原理图;
[0099]
图3为根据本技术一个实施例提供的脱丁烷塔过程数据的真实输出曲线图;
[0100]
图4为根据本技术一个实施例提供的基于整体优化的即时学习的软测量建模方法对脱丁烷塔数据的预测偏差示意图;
[0101]
图5为根据本技术一个实施例提供的现有局部加权偏最小二乘算法对脱丁烷塔数据的预测偏差示意图;
[0102]
图6为根据本技术实施例的一种基于整体优化的即时学习的软测量建模装置的示例图;
[0103]
图7为申请实施例提供的电子设备的结构示意图。
[0104]
附图标记说明:计算模块-100、预测模块-200、存储器-701、处理器-702、通信接口-703。
具体实施方式
[0105]
下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0106]
下面参考附图描述本技术实施例的一种基于整体优化的即时学习的软测量建模方法、装置、电子设备及存储介质。针对上述背景技术中提到的由于工业过程中的时变、多模态特性,以及工业数据中普遍存在多重共线性等问题,本技术提供了一种基于整体优化的即时学习的软测量建模方法,在该方法中,通过即时学习算法建立软测量模型,克服了时变以及多模态问题;通过岭回归算法建立局部模型(即离线岭回归模型和加权岭回归模型),解决过程数据的多重共线性问题,并且具有较高的计算效率。另外,本技术中将相似样本的选择转化为优化问题,并且与局部模型优化目标进行融合,优化了建模过程,提高了样本权重的可靠性以及软测量模型的预测精度。由此,解决了现有技术预测精度差等问题。
[0107]
具体而言,图1为根据本技术实施例提供的一种基于整体优化的即时学习的软测量建模方法的流程图。
[0108]
如图1所示,该基于整体优化的即时学习的软测量建模方法包括以下步骤:
[0109]
在步骤s101中,根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离。
[0110]
需要注意的是,上述预设辅助变量数据集通过目标训练数据集经过标准化处理后得到,具体过程如下所述。
[0111]
可选地,在本技术的一个实施例中,构建目标训练数据集包括:构建存储工业过程中的预设辅助变量数据集;对预设辅助变量数据集进行分析,得到辅助变量数据集中各个样本对应的真实质量变量值;根据辅助变量数据和真实质量变量值构建初始训练数据集,并对训练数据集进行标准化处理,标准化处理为:
[0112][0113]
其中,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。从而得到目标训练数据集。
[0114]
具体地,在本技术的实施例中,通过现场传感器以及存储设备实时采集与存储工业过程中与质量相关的辅助变量的数据x=[x1,x2,
…
xn]
t
,x=[x1,x2,
…
xn]
t
,n为样本数量,m为样本的维度;通过实验室化验分析采集的数据,得到各个样本对应的真实质量变量值将已采集到的数据作为初始训练数据集
对初始训练数据集按照式(1)进行标准化处理,使其均值为0、方差为1,得到训练数据集x
l
为数据x标准化处理后得到的数据,为变量值标准化处理后得到的变量值。
[0115]
可选地,在本技术的一个实施例中,根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,还包括:
[0116]
利用训练数据集建立离线岭回归模型,并且通过模型的回归系数计算得到各输入变量的权重矩阵其具体步骤为:
[0117]
利用训练数据集建立离线岭回归模型,优化目标为:
[0118][0119]
其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数;求解优化目标,得出离线岭回归模型的岭回归系数w0的解析表达式为:
[0120]
w0=(x
l
x
lt
λ0×
i)-1
x
lyl (3)
[0121]
其中,x
lt
为数据x
l
的转置,i为单位矩阵;
[0122]
根据离线岭回归模型的岭回归系数w0通过式(4)计算出各输入变量的权重矩阵,式(4)表示为:
[0123][0124]
其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。
[0125]
可选地,在本技术的一个实施例中,对于新采集的查询数据按照式(1)进行标准化处理,根据权重矩阵w
var
通过式(5)和式(6)计算查询数据xq与数据x
l
中所有样本的加权欧式距离d;式(5)和式(6)的表达式为:
[0126]
dxq=w
var
(xq×
1-x
l
) (5)
[0127][0128]
式中,为对角矩阵且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加。
[0129]
在步骤s102中,将加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,并利用目标协同表示模型计算预设辅助变量数据集中各个历史样本的权重矩阵。
[0130]
可选地,在本技术的一个实施例中,建立查询数据xq与训练数据集的协同表示模型,并融合权重矩阵和加权欧式距离,优化目标为:
[0131][0132]
其中,为协同表示系数,λ1为正则项系数。
[0133]
通过式(8)计算数据x
l
与查询数据xq的协同表示系数,式(8)表示为:
[0134]
b=(x
ltwvar
x
l
λ1d)-1
x
ltwvar
x
q (8)
[0135]
利用协同表示系数通过式(9)得出训练数据集中各历史样本的权重矩阵式(9)表示为:
[0136][0137]
其中,b1为向量b的第一个元素,bn为向量b的第n个元素。
[0138]
在步骤s103中,根据目标训练数据集和各个历史样本的权重矩阵建立加权岭回归模型,将协同表示算法的优化目标与加权岭回归算法的优化目标融合,计算数据x
l
与查询数据xq的协同表示系数以及局部模型系数。
[0139]
具体地,在本技术的实施例中,通过统一的优化目标求解协同表示系数与局部模型系数的具体步骤如下:
[0140]
根据训练集与权重矩阵w
sample
建立加权岭回归模型,优化目标为:
[0141][0142]
其中,为加权岭回归模型系数,λ2为岭回归正则项系数。
[0143]
将改进协同表示优化目标与加权岭回归优化目标加权组合,即式(7)和式(10),可以得到统一的即时学习优化目标,如式(11)所示:
[0144][0145]
其中,a为改进协同表示算法与加权岭回归算法的权重系数。
[0146]
首先,通过固定局部模型系数w求解协同表示系数b,式(11)可以重新描述为式(12):
[0147][0148]
其中,cst(b)代表与b无关的项。通过式(13)计算出改进协同表示系数b,式(13)表示为:
[0149][0150]
然后,固定协同表示系数b求解局部模型系数w,式(11)可以重新描述为式(14):
[0151][0152]
其中,cst(w)代表与w无关的项。
[0153]
通过式(15)计算出局部模型的系数w,式(15)表示为:
[0154][0155]
可选地,在本技术的一个实施例中,计算查询数据的实际值,将实际值与查询数据增加至目标训练数据集。
[0156]
具体地,在本技术的实施例中,利用加权岭回归模型系数w通过式(16)计算查询数据xq的输出值式(16)表示为:
[0157][0158]
当通过实验室化验分析得到真实输出值yq时,将样本[xq,yq]加入到训练数据集中,以扩充训练数据集中所包含的工作区间;否则,维持训练数据集中所包含空间不变。
[0159]
下面将结合附图,以脱丁烷塔的过程数据为例对基于整体优化的即时学习的软测量建模方法进行阐述。
[0160]
脱丁烷塔(dcp)是脱硫和石脑油分裂工厂的一部分,其任务是尽可能地减少塔底丁烷的浓度。某dcp的原理如图2所示。通常塔底丁烷浓度是由安装在塔顶的一块气相色谱分析仪在线测量的,由于塔底丁烷蒸汽到达塔顶需要一定的时间,气相色谱仪的分析过程亦需要一定的时间,因此,对塔底丁烷浓度的在线测量存在较大的滞后,从而需要建立软测量模型,以在线实时估计塔底丁烷浓度。在建立塔底丁烷浓度的软测量模型时,选择安装在脱丁烷塔中的七个变量(参见图2)作为辅助变量,表1给出了这七个辅助变量的解释。数据集来自实际工业生产过程,样本数量为2382,按采样时间排列,实际的输出曲线如图3所示。
[0161]
表1辅助变量说明
[0162][0163][0164]
接下来结合脱丁烷塔生产过程对本技术的具体步骤进行阐述:
[0165]
1、将已采集到的数据作为训练数据集,并且进行预处理。
[0166]
首先,对所有样本进行预处理,删除其中的异常样本;然后,考虑到过程的动态特性,对所有样本按照下式进行维度扩展,扩展后的样本维度为30;最后,进行标准化处理得到最终训练数据集则:
[0167][0168]
其中,表示软测量模型对塔底丁烷浓度的预测值,f
dcp
(
·
)代表丁烷浓度与x1~x7的潜在关系。
[0169]
进而得到:
[0170][0171]
2、利用训练数据集建立离线岭回归模型,并且计算出各输入变量的权重矩阵。
[0172]
根据训练数据集建立离线岭回归模型,并且根据模型的岭回归系数计算出各输入变量的权重矩阵
[0173]
3、采集新数据进行标准化处理。
[0174]
对于新采集到的查询数据按照训练数据集的标准化方式对该数据进行标准化。
[0175]
4、根据统一的优化目标同时计算出样本协同表示系数以及加权岭回归模型系数
[0176]
首先,计算采集到的查询数据xq与训练样本之间的加权欧式距离然后,将d融合到协同表示的正则项中,并且将协同表示与加权岭回归算法融合,得到统一的即时学习优化目标;最后,通过交替迭代优化的方式计算出样本协同表示系数以及局部模型系数
[0177]
5、根据加权岭回归模型系数预测查询数据的输出值。
[0178]
根据加权岭回归系数w计算查询数据xq的预测输出值当获得输出变量的真实值yq时,将样本[xq;yq]添加到训练数据集
[0179]
本技术所述方法(unijitl)与传统局部加权偏最小二乘(lwpls)算法对脱丁烷塔数据输出变量的预测偏差值如图4、图5所示。由图4、图5可以看出,本技术所述方法与传统方法相比,具有更高的预测精度。
[0180]
根据本技术实例提出的一种基于整体优化的即时学习的软测量建模方法,通过协同表示算法获得历史样本的权重矩阵,并通过加权岭回归算法建立加权岭回归模型,将两种算法进行融合,形成统一的优化目标。对于采集的查询数据,首先计算查询数据与训练样本的加权欧式距离,并将加权欧式距离融合到协同表示的正则项中,通过一个统一的优化目标,同时实现相似样本的选择和局部模型的建立。本技术实施例所述方法,不仅能够很好地处理工业过程的非线性、时变性及多重共线性问题,还将相似样本选择和局部模型的构建融合到一个优化函数中,实现利用局部模型的信息指导相似样本的选择,提高相似样本的可靠性及局部模型的预测精度。
[0181]
其次参照附图描述根据本技术实施例提出的一种基于整体优化的即时学习的软测量建模装置。
[0182]
图6是本技术实施例的一种基于整体优化的即时学习的软测量建模装置的方框示意图。
[0183]
如图6所示,该基于整体优化的即时学习的软测量建模装置10包括:计算模块100以及预测模块200。
[0184]
其中,计算模块100,用于根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离,将加权欧式距离融合到协同表示正则项中,
得到目标协同表示模型,并利用目标协同表示模型计算预设辅助变量数据集中各个历史样本的权重矩阵;预测模块200,用于根据目标训练数据集和各个历史样本的权重矩阵建立加权岭回归模型,将目标协同表示模型和加权岭回归模型的优化目标进行融合,计算预设辅助变量数据集与查询数据的加权岭回归模型系数;利用加权岭回归模型系数计算查询数据的预测值。
[0185]
可选地,在本技术的一个实施例中,还包括:构建模块,用于构建存储工业过程中的预设辅助变量数据集;分析模块,用于对预设辅助变量数据集进行分析,得到辅助变量数据集中各个样本对应的真实质量变量值;预处理模块,用于根据辅助变量数据和真实质量变量值构建初始训练数据集,并对训练数据集进行标准化处理,得到目标训练数据集。
[0186]
可选地,在本技术的一个实施例中,标准化处理为:
[0187][0188]
其中,为需要标准化的数据集,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。
[0189]
可选地,在本技术的一个实施例中,还包括:
[0190]
建模模块,用于在根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,根据目标训练数据集建立离线岭回归模型,优化目标为:
[0191][0192]
其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数,x
l
为标准化后的辅助变量数据,为标准化后的真实质量变量值;
[0193]
求解模块,用于求解离线岭回归模型的优化目标,得到离线岭回归模型的岭回归系数w0:
[0194]
w0=(x
l
x
lt
λ0×
i)-1
x
lyl
[0195]
其中,x
lt
为数据x
l
的转置,i为单位矩阵;
[0196]
权重计算模块,用于根据岭回归系数计算各个输入变量的权重矩阵得到预设输入变量权重矩阵:
[0197][0198]
其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。
[0199]
可选地,在本技术的一个实施例中,计算模块100,具体用于,
[0200]
根据预设输入变量权重矩阵计算查询数据与标准化的预设辅助变量数据集中所有样本的加权欧式距离:
[0201]
dxq=w
var
(xq×
1-x
l
)
[0202]
[0203]
其中,xq为查询数据,为对角矩阵且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加;
[0204]
建立查询数据与目标训练数据集的协同表示模型,并融合预设输入变量权重矩阵和加权欧式距离,优化目标为:
[0205][0206]
其中,b为协同表示系数,λ1为正则项系数,为二范数运算;
[0207]
计算标准化的预设辅助变量数据集与查询数据的协同表示系数b:
[0208]
b=(x
ltwvar
x
l
λ1d)-1
x
ltwvar
xq[0209]
利用协同表示系数得出目标训练数据集中各历史样本的权重矩阵:
[0210][0211]
其中,b1为向量b的第一个元素,bn为向量b的第n个元素。
[0212]
可选地,在本技术的一个实施例中,预测模块200,具体用于,
[0213]
根据目标训练数据集与历史样本的权重矩阵建立加权岭回归模型,优化目标为:
[0214][0215]
其中,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0216]
将目标协同表示模型和加权岭回归模型的优化目标进行融合,得出统一的优化目标为:
[0217][0218]
其中,a为两个算法优化目标的权重系数,b为协同表示系数,λ1为协同表示正则项系数,为加权岭回归模型系数,λ2为岭回归正则项系数;
[0219]
计算加权岭回归模型系数w:
[0220][0221]
其中,
[0222]
利用加权岭回归模型系数计算查询数据的预测值:
[0223][0224]
其中,为查询数据xq的转置。
[0225]
可选地,在本技术的一个实施例中,还包括:扩充模块,用于计算查询数据的实际值,将实际值与查询数据增加至目标训练数据集。
[0226]
需要说明的是,前述对一种基于整体优化的即时学习的软测量建模方法实施例的解释说明也适用于该实施例的一种基于整体优化的即时学习的软测量建模装置,此处不再赘述。
[0227]
根据本技术实例提出的一种基于整体优化的即时学习的软测量建模装置,通过将相似样本的选择转化为优化问题,并且与局部模型优化目标进行融合,实现了相似样本选择和局部模型建立的整体优化,从而提高样本权重的合理性与可靠性,改善模型优化效率与预测精度。
[0228]
图7为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括:
[0229]
存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序。
[0230]
处理器702执行程序时实现上述实施例中提供的基于整体优化的即时学习的软测量建模方法。
[0231]
进一步地,电子设备还包括:
[0232]
通信接口703,用于存储器701和处理器702之间的通信。
[0233]
存储器701,用于存放可在处理器702上运行的计算机程序。
[0234]
存储器701可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0235]
如果存储器701、处理器702和通信接口703独立实现,则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0236]
可选的,在具体实现上,如果存储器701、处理器702及通信接口703,集成在一块芯片上实现,则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。
[0237]
处理器702可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0238]
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的基于整体优化的即时学习的软测量建模方法。
[0239]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0240]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0241]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括
一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0242]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0243]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
技术特征:
1.一种基于整体优化的即时学习的软测量建模方法,其特征在于,包括以下步骤:根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离;将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,并利用所述目标协同表示模型计算所述预设辅助变量数据集中各个历史样本的权重矩阵;根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数;利用所述加权岭回归模型系数计算所述查询数据的预测值。2.根据权利要求1所述的方法,其特征在于,所述根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型之前,还包括:构建存储工业过程中的所述预设辅助变量数据集;对所述预设辅助变量数据集进行分析,得到所述辅助变量数据集中各个样本对应的真实质量变量值;根据所述辅助变量数据和所述真实质量变量值构建初始训练数据集,并对所述训练数据集进行标准化处理,得到所述目标训练数据集。3.根据权利要求2所述的方法,其特征在于,所述标准化处理为:其中,为需要标准化的数据集,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。4.根据权利要求1所述的方法,其特征在于,所述根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,还包括:根据所述目标训练数据集建立离线岭回归模型,优化目标为:其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数,x
l
为标准化后的辅助变量数据,为标准化后的真实质量变量值;求解所述离线岭回归模型的优化目标,得到所述离线岭回归模型的岭回归系数w0:w0=(x
l
x
lt
λ0×
i)-1
x
l
y
l
其中,x
lt
为数据x
l
的转置,i为单位矩阵;根据所述岭回归系数计算各个输入变量的权重矩阵得到所述预设输入变量权重矩阵:其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。5.根据权利要求4所述的方法,其特征在于,所述根据预设输入变量权重矩阵计算采集
的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离,将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,利用所述目标协同表示模型计算所述预设辅助变量数据集中各个历史样本的权重矩阵,包括:根据所述预设输入变量权重矩阵计算所述查询数据与标准化的预设辅助变量数据集中所有样本的加权欧式距离:dx
q
=w
var
(x
q
×
1-x
l
)其中,x
q
为查询数据,为对角矩阵d
i,i
=d
i
,i=1,2,
…
,n,且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加;建立所述查询数据与所述目标训练数据集的协同表示模型,并融合所述预设输入变量权重矩阵和所述加权欧式距离,优化目标为:其中,b为协同表示系数,λ1为正则项系数,为二范数运算;计算所述标准化的预设辅助变量数据集与所述查询数据的协同表示系数b:b=(x
lt
w
var
x
l
λ1d)-1
x
lt
w
var
x
q
利用所述协同表示系数得出所述目标训练数据集中各历史样本的权重矩阵:其中,b1为向量b的第一个元素,b
n
为向量b的第n个元素。6.根据权利要求5所述的方法,其特征在于,所述根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数,利用所述加权岭回归模型系数计算所述查询数据的预测值,包括:根据所述目标训练数据集与所述历史样本的权重矩阵建立所述加权岭回归模型,优化目标为:其中,为加权岭回归模型系数,λ2为岭回归正则项系数;将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,得出统一的优化目标为:其中,a为两个算法优化目标的权重系数,b为协同表示系数,λ1为协同表示正则项系数,为加权岭回归模型系数,λ2为岭回归正则项系数;计算所述加权岭回归模型系数w:
其中,利用所述加权岭回归模型系数计算所述查询数据的预测值利用所述加权岭回归模型系数计算所述查询数据的预测值其中,为查询数据x
q
的转置。7.根据权利要求1-6任一项所述的方法,其特征在于,计算所述查询数据的实际值,将所述实际值与所述查询数据增加至所述目标训练数据集。8.一种基于整体优化的即时学习的软测量建模装置,其特征在于,包括:计算模块,用于根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离,将所述加权欧式距离融合到协同表示正则项中,得到目标协同表示模型,并利用所述目标协同表示模型计算所述预设辅助变量数据集中各个历史样本的权重矩阵;预测模块,用于根据目标训练数据集和所述各个历史样本的权重矩阵建立加权岭回归模型,将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,计算所述预设辅助变量数据集与所述查询数据的加权岭回归模型系数;利用所述加权岭回归模型系数计算所述查询数据的预测值。9.根据权利要求8所述的装置,其特征在于,还包括:构建模块,用于构建存储工业过程中的所述预设辅助变量数据集;分析模块,用于对所述预设辅助变量数据集进行分析,得到所述辅助变量数据集中各个样本对应的真实质量变量值;预处理模块,用于根据所述辅助变量数据和所述真实质量变量值构建初始训练数据集,并对所述训练数据集进行标准化处理,得到所述目标训练数据集。10.根据权利要求9所述的装置,其特征在于,所述标准化处理为:其中,为需要标准化的数据集,函数mean(
·
)表示计算矩阵各行的均值,函数std(
·
)表示计算矩阵各行的标准差。11.根据权利要求8所述的装置,其特征在于,还包括:建模模块,用于在根据预设输入变量权重矩阵计算采集的查询数据与预设辅助变量数据集中所有样本的加权欧氏距离之前,根据所述目标训练数据集建立离线岭回归模型,优化目标为:其中,为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数,x
l
为标准化后的辅助变量数据,为标准化后的真实质量变量值;求解模块,用于求解所述离线岭回归模型的优化目标,得到所述离线岭回归模型的岭回归系数w0:w0=(x
l
x
lt
λ0×
i)-1
x
l
y
l
其中,x
lt
为数据x
l
的转置,i为单位矩阵;权重计算模块,用于根据所述岭回归系数计算各个输入变量的权重矩阵得到所述预设输入变量权重矩阵:其中,w0(1)为岭回归系数w0的第一个元素,w0(m)为岭回归系数w0的第m个元素。12.根据权利要求11所述的装置,其特征在于,所述计算模块,具体用于:根据所述预设输入变量权重矩阵计算所述查询数据与标准化的预设辅助变量数据集中所有样本的加权欧式距离:dx
q
=w
var
(x
q
×
1-x
l
)其中,x
q
为查询数据,为对角矩阵d
i,i
=d
i
,i=1,2,
…
,n,且元素全为1,符号表示两个矩阵的对应元素相乘,函数sum(
·
)表示将矩阵各行相加;建立所述查询数据与所述目标训练数据集的协同表示模型,并融合所述预设输入变量权重矩阵和所述加权欧式距离,优化目标为:其中,b为协同表示系数,λ1为正则项系数,为二范数运算;计算所述标准化的预设辅助变量数据集与所述查询数据的协同表示系数b:b=(x
lt
w
var
x
l
λ1d)-1
x
lt
w
var
x
q
利用所述协同表示系数得出所述目标训练数据集中各历史样本的权重矩阵:其中,b1为向量b的第一个元素,b
n
为向量b的第n个元素。13.根据权利要求12所述的装置,其特征在于,所述预测模块,具体用于:根据所述目标训练数据集与所述历史样本的权重矩阵建立所述加权岭回归模型,优化目标为:其中,为加权岭回归模型系数,λ2为岭回归正则项系数;将所述目标协同表示模型和所述加权岭回归模型的优化目标进行融合,得出统一的优
化目标为:其中,a为两个算法优化目标的权重系数,b为协同表示系数,λ1为协同表示正则项系数,为加权岭回归模型系数,λ2为岭回归正则项系数;计算所述加权岭回归模型系数w:其中,利用所述加权岭回归模型系数计算所述查询数据的预测值:其中,为查询数据x
q
的转置。14.根据权利要求8-13任一项所述的装置,其特征在于,还包括:扩充模块,用于计算所述查询数据的实际值,将所述实际值与所述查询数据增加至所述目标训练数据集。15.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的基于整体优化的即时学习的软测量建模方法。16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的基于整体优化的即时学习的软测量建模方法。
技术总结
本申请公开了一种基于整体优化的即时学习的软测量建模方法、装置、电子设备及存储介质,该方法通过协同表示算法获得历史样本的权重矩阵,并通过加权岭回归算法建立加权岭回归模型,将两种算法进行融合,形成统一的即时学习优化目标,最终通过交替迭代的方式进行求解。从而很好地处理工业过程的非线性、时变性及多重共线性问题,还将相似样本选择和局部模型的构建融合到一个优化函数中,实现利用局部模型的信息指导相似样本的选择,提高相似样本的可靠性及局部模型的预测精度。由此,解决了现有技术预测精度差等问题。现有技术预测精度差等问题。现有技术预测精度差等问题。
技术研发人员:王智权 袁志宏 白玮 李秀洁 吴昂山 徐飞 许恒微 宋垚
受保护的技术使用者:江苏斯尔邦石化有限公司
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-8567.html