1.本发明涉及大数据的数据处理领域,尤其涉及一种时序数据异常检测方法、装置、计算机设备及存储介质。
背景技术:
2.时序数据的异常检测就是能够有效检测与其他绝大多数时间序列不同的少量时序数据,及时预警,并定位原因,为后续的策略运营等措施提供强有力支持,具有很重要的意义。目前广泛应用于经济、工业、医疗、金融保险领域中。
3.在一些业务场景中,例如业务代理甄选场景中,积累了大量的时序数据,通过这些数据可以分析环节的转化趋势,定位薄弱环节,有针对性地进行环节改善,提升业务转化效率。因此,对环节数据的异常检测就变成异常重要。
4.目前比较流行的异常检测方法分为有监督和无监督方法。有监督方法是将异常检测转化为二分类问题,正常为一类,异常归为一类,这种方法需要大量的人工标注,效率较低,并且无法对未标注类型的数据进行异常检测。无监督的方法主要有基于规则的方法,如3σ准则;基于聚类算法,该方法将数据聚为多个类,如果某个数据和类中心都比较远,则该数据为异常。在金融保险领域,如增员流程的环节数据、业绩数据等等,往往有周期性、季节性,采用如上的方法适用性不强,异常数据的检测准确性较低。
技术实现要素:
5.本发明实施例提供了一种时序数据异常检测方法、装置、计算机设备及存储介质,旨在解决现有技术中具有对周期性、季节性的数据进行异常检测时,采用有监督和无监督方法,异常数据的检测准确性较低的问题。
6.第一方面,本发明实施例提供了一种时序数据异常检测方法,其包括:
7.获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型;
8.验证所述历史时序数据的季节性,得到验证结果;
9.若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集;
10.若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集;
11.基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列;以及
12.在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。
13.第二方面,本发明实施例提供了一种时序数据异常检测装置,其包括:
14.第一模型获取单元,用于获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型;
15.验证结果获取单元,用于验证所述历史时序数据的季节性,得到验证结果;
16.第一划分单元,用于若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集;
17.第二划分单元,用于若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集;
18.第二模型获取单元,用于基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列;以及
19.检测结果获取单元,用于在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。
20.第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的时序数据异常检测方法。
21.第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的时序数据异常检测方法。
22.本发明实施例提供了一种时序数据异常检测方法、装置、计算机设备及存储介质,通过历史时序数据构建arima模型,进而采用格拉布斯方法,对arima模型中的时序进行异常点检测,进而根据检测结果确定异常值阈值基准和时序预测序列,通过二者结合的方式可以提高异常数据检测的精度,并在后续需要进行数据的异常检测,直接采用得到的异常值阈值基准和时序预测序列即可,且arima模型和格拉布斯模型的融合策略可以应用在在线数据的异常数据检测中,能快速响应异常诊断。
附图说明
23.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例提供的时序数据异常检测方法的应用场景示意图;
25.图2为本发明实施例提供的时序数据异常检测方法的流程示意图;
26.图3为本发明实施例提供的时序数据异常检测装置的示意性框图;
27.图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
30.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
31.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
32.请参阅图1和图2,图1为本发明实施例提供的时序数据异常检测方法的应用场景示意图;图2为本发明实施例提供的时序数据异常检测方法的流程示意图,该时序数据异常检测方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
33.如图2所示,该方法包括步骤s101~s106。
34.s101、获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型。
35.在本实施例中,是以服务器为执行主体描述技术方案。而且本技术的技术方案中的时序数据是以企业增员环节(增员可以理解为人员招聘)的增员数据或者是人员的业务绩效数据为例,这些数据往往具有周期性和季节性,采用二分类这一有监督的异常检测方法或者是采用聚类算法这一无监督的方法,很难准确检测到时序数据中的异常数据。
36.其中,历史时序数据是指已经发生并存储的时序数据,时序数据也即时间序列数据,是同一统一指标按时间顺序记录的数据列,其可由用户端上传至服务器。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,构建时间序列模型,进行样本外预测。
37.其中,差分整合移动平均自回归模型即arima模型(其英文全称是autoregressive integrated moving average model),又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。arima(p,d,q)中,ar是“自回归”,p为自回归项数;ma为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。
38.在一实施例中,步骤s101包括:
39.按照预设时间区间,对所述历史时序数据按照进行分段,得到一个以预设时间区间为时间间隔的原始数据序列;
40.对所述原始数据序列进行序列的平稳性检验,得到平稳性检验结果;
41.若所述平稳性检验结果为原始数据序列是非平稳的数据序列,则采用差分对原始数据序列进行平稳化处理,得到平稳的数据序列;
42.若所述平稳性检验结果为原始数据序列是平稳的数据序列,则将所述原始数据序列作为平稳的数据序列;
43.通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型。
44.在本实施例中,基于历史时序数据构建arima模型,主要是先进行平稳性检验、白噪声检验等处理得到平稳的数据序列后,再使用初始arma模型对所述平稳的数据序列进行
拟合得到目标arima模型,所得到的目标arima模型可用于后续的异常数据检测。对序列进行平稳性检验,若为非平稳序列,则需进行差分运算,这里的差分包括d阶一般差分和d阶周期差分。
45.例如,以企业增员环节的增员数据组成的历史时序数据为例来说明,一般可以获取过去年的a部门的历史增员数据组成历史时序数据,然后获取预设时间间隔
△
t(如将
△
t设置为1个月)对a部门过去3年的历史时序数据进行分段,一共可以得到具有36个分段的原始数据序列。之后对这具有36个分段的原始数据序列通过daniel检验法(即丹尼尔检验法)等进行平稳性检验,得到平稳性检测结果。若原始数据序列的平稳性检验结果为非平稳数据序列,通过差分处理即可实现平稳化处理而得到平稳的数据序列;若原始数据序列的平稳性检验结果为平稳数据序列,则无需做任何处理而是直接将所述原始数据序列作为平稳的数据序列。最后使用预先设置的初始arma模型对所述平稳的数据序列进行拟合,即可得到目标arima模型。
46.可选地,所述通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型,包括:
47.通过所述初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,确定非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数,由周期差分次数、非周期差分次数非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数得到所述差分整合移动平均自回归模型。
48.其中,使用初始arma模型对平稳的数据序列进行拟合,确定arma模型的阶数,即确定(p,q)以及(p,q)的值,再综合前述的d阶一般差分和d阶周期差分,得到数据序列拟合的乘积周期模型的完整结构如下:
49.φ
p
(b)φ
p
(bs)(1-b)(1-bs)dy
t
=θq(b)θq(bs)ε
t
50.其中,y
t
为原始数据序列的观测值,ε
t
为残差项,b为滞后算子,s表示变化周期,1-b表示非周期差分,1-bs表示周期差分,φ
p
(b)表示非周期自回归多项式,φ
p
(bs)表示周期自回归多项式,θq(b)表示非周期平均移动多项式,θq(bs)表示周期平均移动多项式,p表示非周期自回归多项式的最大滞后阶数,p表示周期自回归多项式的最大滞后阶数,q表示非周期平均移动多项式的最大滞后阶数,q表示周期平均移动多项式的最大滞后阶数,d表示非周期差分次数,d表示周期差分次数。
51.本文先用时序图进行直观的判断再利用相关图进行更进一步的检验。对于非平稳时间序列中若存在增长或下降趋势,则需要进行差分处理然后进行平稳性检验直至平稳为止。其中,差分的次数就是模型arima(p,d,q)的阶数,也即,上述公式中d的值,理论上说,差分的次数越多,对时序信息的非平稳确定性信息的提取越充分,但是从理论上说,差分的次数并非越多越好,每一次差分运算,都会造成信息的损失,所以应当避免过分的差分,一般在应用中,差分的阶数不超过2。
52.s102、验证所述历史时序数据的季节性,得到验证结果。
53.具体地,本实施例结合自相关函数(auto correlationfunction,acf)和偏自相关
函数(partialauto correlationfunction,pacf)验证arima模型中的历史时序数据,是否存在周期性和季节性。
54.其中,周期性(cyclic):指的是一个时间序列中呈现出来的围绕长期趋势的一种波浪型或振荡式变动。它的波动的时间频率比较广泛,可以不是固定的。
55.其中,季节性(seasonal):在一个序列中,若经过s个时间间隔后呈现出相似性,我们就说该序列具有以s为周期的周期性特性。具有周期性特性的序列就称为季节性时间序列,这里s为周期长度。
56.季节性是周期性特例的一种,因此,验证序列是否存在周期性、季节性,即就是验证序列是否存在周期性,只是在实际业务场景中存在季节性的较多,因而作为一种优选方式,本实施例采用季节性的验证,来作为后续进行分类的基准,以便提高分类的准确性。
57.其中,acf是描述一个时间序列t时刻的yt值与其周围各个数据(yt-1,yt-2,
…
,yt-n)之间线性组合的相关性;pacf描述的是t时刻的yt值与远端的yt-k之间的相关性,而不考虑其他的线性组合。
58.对于ar与ma模型的季节项,将会在acf和pacf的滞后上看到差异。例如,arima(0,0,0)(0,0,1)12模型,将会在acf的lag12处看到一个spike(突出点),而在其他地方看不到突出点。pacf将会在周期的位置出现指数衰减,即lag12,24,36
…
。类似的,arima(0,0,0)(1,0,0)12模型则会显示出在acf图的周期性位置显示出指数衰减,而在pacf图中的lag12处看到一个spike。
59.通常一个序列是否存在周期性,往往是根据上文所描述的acf和pacf图来确定,故对于acf和pacf图的理解都会有比较大偏差,这将带来了很多的主观因素,也不利于其他参数的确定,同时在自动化建模上,若离线模型重新迭代,需要人工去确定参数,不利于离线模型自动迭代和在线异常检测机制的自动化。因此,为了能够合理的确定模型参数,以及能够自迭代模型,本文在探索模型时会结合看图,会分析整个趋势性和周期性,但在应用时会结合图分析的结果,采取网格搜索方式,自动确定(p,d,q)、(p,d,q)。
60.具体如下:
61.1)根据acf,pacf图的分析结果,以及时序数据具有短期的相关性,p取值通常在[0,6],d取值在[0,2],q取值在[0,6],而p取值通常为[0,2],q取值通常为[0,2],周期参数d一般需要根据数据的时间粒度和周期大小设定,比如数据是小时级别,周期是一天,那么对应的参数就是24。本文的数据是增员环节的增员数据组成的历史时序数据,是月度数据,而通过分析,月度数据具有季度性,例如历史各年的1,4,7,10月、2,5,8,11月、3,6,9,12月,这些具有同一规律,那么d可设定为4,若历年各月具有年度性,则d设定为12,因此,在这里d设定为0,4或12;
[0062]
2)在进行参数的网格搜索中,为了找到最优的模型,通常都是寻找aic值最小的那组参数。由于aic值的结果是基于训练集的数据通过拟合参数,计算得到的,依赖于训练集的数据,若训练集外的数据发生突变,往往预知不到,这样会造成参数拟合出现偏差。因此,本文针对最优参数的确定,将结合考虑aic值 跨时间验证的模型精度。这里的跨时间验证,是指在构建模型时,留一部分数据用于验证,通常会留12个月数据,对同一组参数,逐一滚动构建12个模型,第一个模型预测未来第1至第12个月;第2个模型,训练集数据 1,预测未来第2至第12个月;第3个模型,训练集数据 2,预测未来第3至第12个月;
…
;以此类推。通过
对12个模型预测结果与实际结果的偏差,计算平均精度。通常会选取跨时间验证模型精度top5的aic值最小的为最优参数。
[0063]
3)基于最优参数,参照d的取值,确定是否存在季节性以及季节性的类型,是季度还是年度。
[0064]
s103、若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集。
[0065]
在本实施例中,在验证结果为具有季节性时,将属于同一季节的数据作为一个类别,并组成归属于同季节类别的样本数据,在完成了对各个季节类别的样本数据的获取后,即可由多个季节类别的样本数据共同组成样本数据集
[0066]
本实施例中,通过对验证了季节性的验证,充分考虑了时序数据的季节性,将同类型数据归为一类,提高分类的准确性,有利于后续计算偏离值时,减少误差,提高异常点的判断准确率。
[0067]
s104、若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集。
[0068]
在本实施例中,在验证结果为不具有季节性时,则获取预设的时间区间阈值(如与之前预设时间间隔
△
t相等,更具体都为1个月),然后根据预设的时间区间阈值,将属于预设时间范围内的样本划分为一个类别,最后由多个类别的样本数据组成样本数据集。其中,预设时间范围可根据实际情况进行设定,此处不做限制。
[0069]
s105、基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列。
[0070]
在本实施例中,格拉布斯模型也可理解为grubbs算法(即格拉布斯方法),该方法能将“可疑值”从序列样本中剔除而不参与计算,那么该“可疑值”就称作异常值。grubbs算法也称为最大归一化残差检验或极端学生化残差检验,用于检验假定服从正态分布单序列的异常值。由于样本来自总体,方差未知,服从t分布,其临界值公式如下(1):
[0071][0072]
其中,t
α/n,n-2
表示具有n-2自由度,α/n的显著性水平下的t分布的临界值。通过格拉布斯方法可以快速检测出所述样本数据集中每个类别的样本数据是否存在异常时序数据,并且还能将异常时序数据基于格拉布斯表中预设值(预设值具体为格拉布斯表中95%置信临时值)进行替换,以确保时序序列数据的完整性和连贯性。
[0073]
在一实施例中,步骤s105包括:
[0074]
将所述样本数据集中每个类别的数据作为一个基础时序序列;
[0075]
计算每个所述基础时序序列的均值和标准差,并根据所述均值和标准差,确定所述基础时序序列中每个时序数据的偏离值;
[0076]
将偏离值与格拉布斯表中预设值比较,得到比较结果;
[0077]
若比较结果为偏离值大于预设值,则确定所述偏离值对应的时序数据存在异常,并将存在异常的时序数据作为异常点。
[0078]
在本实施例中,计算每个所述基础时序序列的均值和标准差中均值用x_mean表示
且标准差用x_std表示;确定所述基础时序序列中每个时序数据的偏离值时每个时序数据的偏离值用gi表示且gi=(xi-x_mean)/x_std;格拉布斯表中预设值中预设值用g_p(n)表示;基于基准均值和标准差来计算所述基础时序序列中每个时序数据xi的偏离值gi(其中,gi=(xi-x_mean)/x_std),然后若确定存在时序数据xi的偏离值gi》格拉布斯表中预设值g_p(n)时则确定所述偏离值gi对应的时序数据存在异常,并将存在异常的时序数据作为异常点。这样,通过对每个类别的样本数据均参照上述方式进行了异常点检测后,得到综合的检测结果。
[0079]
在一实施例中,所述基础时序序列中,将非异常点的时序数据的均值、标准差作为基础时序序列对应类别的异常值阈值基准。
[0080]
在本实施例中,若确定某一类别的基础时序序列已将所有的异常点剔除后,可以基于剩下的正常点计算均值和标准差,然后作为这一类别的基础时序序列所对应的异常值阈值基准。对未来的时序序列进行异常点检测时,若判定未来的时序序列与前述类别的基础时序序列属于同一类别时,可以直接调用前述类别的均值和标准差作为异常值阈值基准。
[0081]
在一实施例中,通过格拉布斯表中预设值对基础时序序列中的异常点进行替换,将得到的序列,作为时序预测序列。
[0082]
在本实施例中,若确定某一类别的基础时序序列存在异常时序数据时,之后可以将异常时序数据基于格拉布斯表中预设值进行替换,以确保时序序列数据的完整性和连贯性。
[0083]
其中,步骤s101-s105的步骤对应离线处理历史时序数据,得到多个类别的样本数据(即得到了各个类别的时序预测序列),每一类别中的样本数据均是正常点,而且每一类别都有已完成计算而得到的均值、标准差和异常值阈值基准,由于这一离线处理过程是在服务器中随时可以启动,或者是可以发送至其他服务器中进行也可,只要将最后每个类别的样本数据回传至服务器中进行存储即可。之后对未来的时序数据进行异常点进行检测,相当于基于之前离线处理得到的各类别的样本数据进行对比判断。
[0084]
s106、在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。
[0085]
在本实施例中,在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行双重异常检测,得到检测结果。其中,待检测数据是有别于历史时序数据的当前待检测时序数列,当前是要对待检测数据判断是否存在异常点,这就需要调用之前服务器中离线完成处理并得到的多个类别的时序预测序列,而且此时对待检测数据是否存在异常点进行检测时实时处理过程,并可以理解为在线处理过程。
[0086]
本实施例中,检测为有序检测,即,先根据异常值阈值基准,判断待检测数据是否为异常点,具体检测方法可参考上述实施例的描述,若是异常点,则再根据时序预测序列进行二次检测,若不是异常点,则确认该待检测数据无异常。
[0087]
在一实施例中,步骤s106包括:
[0088]
根据待检测数据和所述的类别对应的异常值阈值基准,确定所述待检测数据的偏离值;
[0089]
若所述待检测数据的偏离值大于格拉布斯表中预设值,则基于所述时序预测序列与待检测数据对应的基础时序序列,确定残差序列;
[0090]
若确定所述残差序列符合3σ准则,则判定检测结果为不存在异常;
[0091]
若确定所述残差序列不符合3σ准则,则判定检测结果为存在异常。
[0092]
在本实施例中,可以基于待检测数据所对应的时间段来确定其所属的类别,例如待检测数据对应的是a部门今年3月的时序数据序列,而基于历史时序数据进行季节性分组得到多个类别的时序预测序列,那么此时可以根据待检测数据对应所属的季节来判定其类别。之后根据待检测数据对应所属的类别获取对应的异常值阈值基准,确定所述待检测数据的偏离值,从而可以先进行一次基于格拉布斯法的异常点检测。若确定了待检测数据中存在异常点,则基于所述时序预测序列与待检测数据对应的基础时序序列的差异值确定残差序列,最后对残差序列进一步进行一次是否满足3σ准则的判定得到最终判定结果。通过双重异常检测,得到检测结果,结果更加准确。其中,在正态分布中σ代表标准差,μ代表均值,3σ准则是指数值分布在(μ-σ,μ σ)中的概率为0.6826,数值分布在(μ-2σ,μ 2σ)中的概率为0.9544,数值分布在(μ-3σ,μ 3σ)中的概率为0.9974。若确定所述残差序列中的所有取值均集中在(μ-3σ,μ 3σ)区间内则符合3σ准则,若确定所述残差序列中有取值未在(μ-3σ,μ 3σ)区间内则不符合3σ准则。
[0093]
本技术实施例可以基于人工智能技术对服务器中相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0094]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0095]
该方法实现了基于历史时序数据构建arima模型,且对arima模型中的时序进行异常点检测,进而根据检测结果确定异常值阈值基准和时序预测序列,之后对待检测数据进行异常检测时结合异常值阈值基准和时序预测序列,能更准确的检测出异常数据。
[0096]
本发明实施例还提供一种时序数据异常检测装置,该时序数据异常检测装置用于执行前述时序数据异常检测方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的时序数据异常检测装置100的示意性框图。
[0097]
其中,如图3所示,时序数据异常检测装置100包括第一模型获取单元101、验证结果获取单元102、第一划分单元103、第二划分单元104、第二模型获取单元105和检测结果获取单元106。
[0098]
第一模型获取单元101,用于获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型。
[0099]
在本实施例中,是以服务器为执行主体描述技术方案。而且本技术的技术方案中的时序数据是以企业增员环节(增员可以理解为人员招聘)的增员数据或者是人员的业务绩效数据为例,这些数据往往具有周期性和季节性,采用二分类这一有监督的异常检测方法或者是采用聚类算法这一无监督的方法,很难准确检测到时序数据中的异常数据。
[0100]
其中,历史时序数据是指已经发生并存储的时序数据,时序数据也即时间序列数据,是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,构建时间序列模型,进行样本外预测。
[0101]
其中,差分整合移动平均自回归模型即arima模型(其英文全称是autoregressive integrated moving average model),又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。arima(p,d,q)中,ar是“自回归”,p为自回归项数;ma为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。
[0102]
在一实施例中,第一模型获取单元101具体用于:
[0103]
按照预设时间区间,对所述历史时序数据按照进行分段,得到一个以预设时间区间为时间间隔的原始数据序列;
[0104]
对所述原始数据序列进行序列的平稳性检验,得到平稳性检验结果;
[0105]
若所述平稳性检验结果为原始数据序列是非平稳的数据序列,则采用差分对原始数据序列进行平稳化处理,得到平稳的数据序列;
[0106]
若所述平稳性检验结果为原始数据序列是平稳的数据序列,则将所述原始数据序列作为平稳的数据序列;
[0107]
通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型。
[0108]
在本实施例中,基于历史时序数据构建arima模型,主要是先进行平稳性检验、白噪声检验等处理得到平稳的数据序列后,再使用初始arma模型对所述平稳的数据序列进行拟合得到目标arima模型,所得到的目标arima模型可用于后续的异常数据检测。对序列进行平稳性检验,若为非平稳序列,则需进行差分运算,这里的差分包括d阶一般差分和d阶周期差分。
[0109]
例如,以企业增员环节的增员数据组成的历史时序数据为例来说明,一般可以获取过去年的a部门的历史增员数据组成历史时序数据,然后获取预设时间间隔
△
t(如将
△
t设置为1个月)对a部门过去3年的历史时序数据进行分段,一共可以得到具有36个分段的原始数据序列。之后对这具有36个分段的原始数据序列通过daniel检验法(即丹尼尔检验法)等进行平稳性检验,得到平稳性检测结果。若原始数据序列的平稳性检验结果为非平稳数据序列,通过差分处理即可实现平稳化处理而得到平稳的数据序列;若原始数据序列的平稳性检验结果为平稳数据序列,则无需做任何处理而是直接将所述原始数据序列作为平稳的数据序列。最后使用预先设置的初始arma模型对所述平稳的数据序列进行拟合,即可得到目标arima模型。
[0110]
可选地,所述通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型,包括:
[0111]
通过所述初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,确定非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数,由周期差分次数、非周期差分次数非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶
数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数得到所述差分整合移动平均自回归模型。
[0112]
其中,使用初始arma模型对平稳的数据序列进行拟合,确定arma模型的阶数,即确定(p,q)以及(p,q)的值,再综合前述的d阶一般差分和d阶周期差分,得到数据序列拟合的乘积周期模型的完整结构如下:
[0113]
φ
p
(b)φ
p
(bs)(1-b)(1-bs)dy
t
=θq(b)θq(bs)ε
t
[0114]
其中,y
t
为原始数据序列的观测值,ε
t
为残差项,b为滞后算子,s表示变化周期,1-b表示非周期差分,1-bs表示周期差分,φ
p
(b)表示非周期自回归多项式,φ
p
(bs)表示周期自回归多项式,θq(b)表示非周期平均移动多项式,θq(bs)表示周期平均移动多项式,p表示非周期自回归多项式的最大滞后阶数,p表示周期自回归多项式的最大滞后阶数,q表示非周期平均移动多项式的最大滞后阶数,q表示周期平均移动多项式的最大滞后阶数,d表示非周期差分次数,d表示周期差分次数。
[0115]
本文先用时序图进行直观的判断再利用相关图进行更进一步的检验。对于非平稳时间序列中若存在增长或下降趋势,则需要进行差分处理然后进行平稳性检验直至平稳为止。其中,差分的次数就是模型arima(p,d,q)的阶数,也即,上述公式中d的值,理论上说,差分的次数越多,对时序信息的非平稳确定性信息的提取越充分,但是从理论上说,差分的次数并非越多越好,每一次差分运算,都会造成信息的损失,所以应当避免过分的差分,一般在应用中,差分的阶数不超过2。
[0116]
验证结果获取单元102,用于验证所述历史时序数据的季节性,得到验证结果。
[0117]
具体地,本实施例结合自相关函数(auto correlationfunction,acf)和偏自相关函数(partialauto correlationfunction,pacf)验证arima模型中的历史时序数据,是否存在周期性和季节性。
[0118]
其中,周期性(cyclic):指的是一个时间序列中呈现出来的围绕长期趋势的一种波浪型或振荡式变动。它的波动的时间频率比较广泛,可以不是固定的。
[0119]
其中,季节性(seasonal):在一个序列中,若经过s个时间间隔后呈现出相似性,我们就说该序列具有以s为周期的周期性特性。具有周期性特性的序列就称为季节性时间序列,这里s为周期长度。
[0120]
季节性是周期性特例的一种,因此,验证序列是否存在周期性、季节性,即就是验证序列是否存在周期性,只是在实际业务场景中存在季节性的较多,因而作为一种优选方式,本实施例采用季节性的验证,来作为后续进行分类的基准,以便提高分类的准确性。
[0121]
其中,acf是描述一个时间序列t时刻的yt值与其周围各个数据(yt-1,yt-2,
…
,yt-n)之间线性组合的相关性;pacf描述的是t时刻的yt值与远端的yt-k之间的相关性,而不考虑其他的线性组合。
[0122]
对于ar与ma模型的季节项,将会在acf和pacf的滞后上看到差异。例如,arima(0,0,0)(0,0,1)12模型,将会在acf的lag12处看到一个spike(突出点),而在其他地方看不到突出点。pacf将会在周期的位置出现指数衰减,即lag12,24,36
…
。类似的,arima(0,0,0)(1,0,0)12模型则会显示出在acf图的周期性位置显示出指数衰减,而在pacf图中的lag12处看到一个spike。
[0123]
通常一个序列是否存在周期性,往往是根据上文所描述的acf和pacf图来确定,故
对于acf和pacf图的理解都会有比较大偏差,这将带来了很多的主观因素,也不利于其他参数的确定,同时在自动化建模上,若离线模型重新迭代,需要人工去确定参数,不利于离线模型自动迭代和在线异常检测机制的自动化。因此,为了能够合理的确定模型参数,以及能够自迭代模型,本文在探索模型时会结合看图,会分析整个趋势性和周期性,但在应用时会结合图分析的结果,采取网格搜索方式,自动确定(p,d,q)、(p,d,q)。
[0124]
具体如下:
[0125]
1)根据acf,pacf图的分析结果,以及时序数据具有短期的相关性,p取值通常在[0,6],d取值在[0,2],q取值在[0,6],而p取值通常为[0,2],q取值通常为[0,2],周期参数d一般需要根据数据的时间粒度和周期大小设定,比如数据是小时级别,周期是一天,那么对应的参数就是24。本文的数据是增员环节的增员数据组成的历史时序数据,是月度数据,而通过分析,月度数据具有季度性,例如历史各年的1,4,7,10月、2,5,8,11月、3,6,9,12月,这些具有同一规律,那么d可设定为4,若历年各月具有年度性,则d设定为12,因此,在这里d设定为0,4或12;
[0126]
2)在进行参数的网格搜索中,为了找到最优的模型,通常都是寻找aic值最小的那组参数。由于aic值的结果是基于训练集的数据通过拟合参数,计算得到的,依赖于训练集的数据,若训练集外的数据发生突变,往往预知不到,这样会造成参数拟合出现偏差。因此,本文针对最优参数的确定,将结合考虑aic值 跨时间验证的模型精度。这里的跨时间验证,是指在构建模型时,留一部分数据用于验证,通常会留12个月数据,对同一组参数,逐一滚动构建12个模型,第一个模型预测未来第1至第12个月;第2个模型,训练集数据 1,预测未来第2至第12个月;第3个模型,训练集数据 2,预测未来第3至第12个月;
…
;以此类推。通过对12个模型预测结果与实际结果的偏差,计算平均精度。通常会选取跨时间验证模型精度top5的aic值最小的为最优参数。
[0127]
3)基于最优参数,参照d的取值,确定是否存在季节性以及季节性的类型,是季度还是年度。
[0128]
第一划分单元103,用于若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集。
[0129]
在本实施例中,在验证结果为具有季节性时,将属于同一季节的数据作为一个类别,并组成归属于同季节类别的样本数据,在完成了对各个季节类别的样本数据的获取后,即可由多个季节类别的样本数据共同组成样本数据集
[0130]
本实施例中,通过对验证了季节性的验证,充分考虑了时序数据的季节性,将同类型数据归为一类,提高分类的准确性,有利于后续计算偏离值时,减少误差,提高异常点的判断准确率。
[0131]
第二划分单元104,用于若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集。
[0132]
在本实施例中,在验证结果为不具有季节性时,则获取预设的时间区间阈值(如与之前预设时间间隔
△
t相等,更具体都为1个月),然后根据预设的时间区间阈值,将属于预设时间范围内的样本划分为一个类别,最后由多个类别的样本数据组成样本数据集。其中,预设时间范围可根据实际情况进行设定,此处不做限制。
[0133]
第二模型获取单元105,用于基于格拉布斯模型对所述样本数据集中每个类别的
样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列。
[0134]
在本实施例中,格拉布斯模型也可理解为grubbs算法(即格拉布斯方法),该方法能将“可疑值”从序列样本中剔除而不参与计算,那么该“可疑值”就称作异常值。grubbs算法也称为最大归一化残差检验或极端学生化残差检验,用于检验假定服从正态分布单序列的异常值。由于样本来自总体,方差未知,服从t分布,其临界值公式如上公式(1)。通过格拉布斯方法可以快速检测出所述样本数据集中每个类别的样本数据是否存在异常时序数据,并且还能将异常时序数据基于格拉布斯表中预设值进行替换,以确保时序序列数据的完整性和连贯性。
[0135]
在一实施例中,第二模型获取单元105具体用于:
[0136]
将所述样本数据集中每个类别的数据作为一个基础时序序列;
[0137]
计算每个所述基础时序序列的均值和标准差,并根据所述均值和标准差,确定所述基础时序序列中每个时序数据的偏离值;
[0138]
将偏离值与格拉布斯表中预设值比较,得到比较结果;
[0139]
若比较结果为偏离值大于预设值,则确定所述偏离值对应的时序数据存在异常,并将存在异常的时序数据作为异常点。
[0140]
在本实施例中,计算每个所述基础时序序列的均值和标准差中均值用x_mean表示且标准差用x_std表示;确定所述基础时序序列中每个时序数据的偏离值时每个时序数据的偏离值用gi表示且gi=(xi-x_mean)/x_std;格拉布斯表中预设值中预设值用g_p(n)表示;基于基准均值和标准差来计算所述基础时序序列中每个时序数据xi的偏离值gi(其中,gi=(xi-x_mean)/x_std),然后若确定存在时序数据xi的偏离值gi》格拉布斯表中预设值g_p(n)时则确定所述偏离值gi对应的时序数据存在异常,并将存在异常的时序数据作为异常点。这样,通过对每个类别的样本数据均参照上述方式进行了异常点检测后,得到综合的检测结果。
[0141]
在一实施例中,所述基础时序序列中,将非异常点的时序数据的均值、标准差作为基础时序序列对应类别的异常值阈值基准。
[0142]
在本实施例中,若确定某一类别的基础时序序列已将所有的异常点剔除后,可以基于剩下的正常点计算均值和标准差,然后作为这一类别的基础时序序列所对应的异常值阈值基准。对未来的时序序列进行异常点检测时,若判定未来的时序序列与前述类别的基础时序序列属于同一类别时,可以直接调用前述类别的均值和标准差作为异常值阈值基准。
[0143]
在一实施例中,所述若比较结果为偏离值大于预设值,则确定所述偏离值对应的时序数据存在异常,并将存在异常的时序数据作为异常点之后,还包括:通过格拉布斯表中预设值对基础时序序列中的异常点进行替换,将得到的序列,作为时序预测序列。
[0144]
在本实施例中,若确定某一类别的基础时序序列存在异常时序数据时,之后可以将异常时序数据基于格拉布斯表中预设值进行替换,以确保时序序列数据的完整性和连贯性。
[0145]
其中,在第一模型获取单元101、验证结果获取单元102、第一划分单元103、第二划分单元104和第二模型获取单元105中进行的处理对应离线处理历史时序数据,得到多个类
别的样本数据(即得到了各个类别的时序预测序列),每一类别中的样本数据均是正常点,而且每一类别都有已完成计算而得到的均值、标准差和异常值阈值基准,由于这一离线处理过程是在服务器中随时可以启动,或者是可以发送至其他服务器中进行也可,只要将最后每个类别的样本数据回传至服务器中进行存储即可。之后对未来的时序数据进行异常点进行检测,相当于基于之前离线处理得到的各类别的样本数据进行对比判断。
[0146]
检测结果获取单元106,用于在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。
[0147]
在本实施例中,在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行双重异常检测,得到检测结果。其中,待检测数据是有别于历史时序数据的当前待检测时序数列,当前是要对待检测数据判断是否存在异常点,这就需要调用之前服务器中离线完成处理并得到的多个类别的时序预测序列,而且此时对待检测数据是否存在异常点进行检测时实时处理过程,并可以理解为在线处理过程。
[0148]
本实施例中,检测为有序检测,即,先根据异常值阈值基准,判断待检测数据是否为异常点,具体检测方法可参考上述实施例的描述,若是异常点,则再根据时序预测序列进行二次检测,若不是异常点,则确认该待检测数据无异常。
[0149]
在一实施例中,检测结果获取单元106具体用于:
[0150]
根据待检测数据和所述的类别对应的异常值阈值基准,确定所述待检测数据的偏离值;
[0151]
若所述待检测数据的偏离值大于格拉布斯表中预设值,则基于所述时序预测序列与待检测数据对应的基础时序序列,确定残差序列;
[0152]
若确定所述残差序列符合3σ准则,则判定检测结果为不存在异常;
[0153]
若确定所述残差序列不符合3σ准则,则判定检测结果为存在异常。
[0154]
在本实施例中,可以基于待检测数据所对应的时间段来确定其所属的类别,例如待检测数据对应的是a部门今年3月的时序数据序列,而基于历史时序数据进行季节性分组得到多个类别的时序预测序列,那么此时可以根据待检测数据对应所属的季节来判定其类别。之后根据待检测数据对应所属的类别获取对应的异常值阈值基准,确定所述待检测数据的偏离值,从而可以先进行一次基于格拉布斯法的异常点检测。若确定了待检测数据中存在异常点,则基于所述时序预测序列与待检测数据对应的基础时序序列的差异值确定残差序列,最后对残差序列进一步进行一次是否满足3σ准则的判定得到最终判定结果。通过双重异常检测,得到检测结果,结果更加准确。
[0155]
该装置实现了基于历史时序数据构建arima模型,且对arima模型中的时序进行异常点检测,进而根据检测结果确定异常值阈值基准和时序预测序列,之后对待检测数据进行异常检测时结合异常值阈值基准和时序预测序列,能更准确的检测出异常数据。
[0156]
上述时序数据异常检测装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0157]
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容
分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0158]
参阅图4,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
[0159]
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行时序数据异常检测方法。
[0160]
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
[0161]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行时序数据异常检测方法。
[0162]
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0163]
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的时序数据异常检测方法。
[0164]
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
[0165]
应当理解,在本发明实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0166]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的时序数据异常检测方法。
[0167]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0168]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以
通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0169]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0170]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0171]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0172]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种时序数据异常检测方法,其特征在于,包括:获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型;验证所述历史时序数据的季节性,得到验证结果;若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集;若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集;基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列;以及在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。2.根据权利要求1所述的时序数据异常检测方法,其特征在于,所述获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型,包括:按照预设时间区间,对所述历史时序数据按照进行分段,得到一个以预设时间区间为时间间隔的原始数据序列;对所述原始数据序列进行序列的平稳性检验,得到平稳性检验结果;若所述平稳性检验结果为原始数据序列是非平稳的数据序列,则采用差分对原始数据序列进行平稳化处理,得到平稳的数据序列;若所述平稳性检验结果为原始数据序列是平稳的数据序列,则将所述原始数据序列作为平稳的数据序列;通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型。3.根据权利要求2所述的时序数据异常检测方法,其特征在于,所述通过初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,更新所述初始差分整合移动平均自回归模型的阶数,得到所述差分整合移动平均自回归模型,包括:通过所述初始差分整合移动平均自回归模型对所述平稳的数据序列进行拟合,确定非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数,由周期差分次数、非周期差分次数非周期自回归多项式的最大滞后阶数、非周期平均移动多项式的最大滞后阶数、周期自回归多项式的最大滞后阶数和周期平均移动多项式的最大滞后阶数得到所述差分整合移动平均自回归模型。4.根据权利要求1所述的时序数据异常检测方法,其特征在于,所述基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,包括:将所述样本数据集中每个类别的数据作为一个基础时序序列;计算每个所述基础时序序列的均值和标准差,并根据所述均值和标准差,确定所述基础时序序列中每个时序数据的偏离值;将偏离值与格拉布斯表中预设值比较,得到比较结果;若比较结果为偏离值大于预设值,则确定所述偏离值对应的时序数据存在异常,并将
存在异常的时序数据作为异常点。5.根据权利要求4所述的时序数据异常检测方法,其特征在于,所述若比较结果为偏离值大于预设值,则确定所述偏离值对应的时序数据存在异常,并将存在异常的时序数据作为异常点之后,还包括:通过格拉布斯表中预设值对基础时序序列中的异常点进行替换,将得到的序列,作为时序预测序列。6.根据权利要求1所述的时序数据异常检测方法,其特征在于,所述基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果,包括:根据待检测数据和所述的类别对应的异常值阈值基准,确定所述待检测数据的偏离值;若所述待检测数据的偏离值大于格拉布斯表中预设值,则基于所述时序预测序列与待检测数据对应的基础时序序列,确定残差序列;若确定所述残差序列符合3σ准则,则判定检测结果为不存在异常;若确定所述残差序列不符合3σ准则,则判定检测结果为存在异常。7.根据权利要求4所述的时序数据异常检测方法,其特征在于,所述基础时序序列中,将非异常点的时序数据的均值、标准差作为基础时序序列对应类别的异常值阈值基准。8.一种时序数据异常检测装置,其特征在于,包括:第一模型获取单元,用于获取历史时序数据,并基于所述历史时序数据构建差分整合移动平均自回归模型;验证结果获取单元,用于验证所述历史时序数据的季节性,得到验证结果;第一划分单元,用于若所述验证结果为具有季节性,则将同季节数据作为一个类别的样本数据,由多个类别的样本数据组成样本数据集;第二划分单元,用于若所述验证结果为不具有季节性,则将预设时间范围内的样本划分为一个类别的样本数据,由多个类别的样本数据组成样本数据集;第二模型获取单元,用于基于格拉布斯模型对所述样本数据集中每个类别的样本数据进行时序异常检测,得到异常检测结果,并根据所述异常检测结果确定每个类别的异常值阈值基准和时序预测序列;以及检测结果获取单元,用于在接收到待检测数据时,基于所述每个类别的异常值阈值基准和所述时序预测序列,对所述待检测数据进行异常检测,得到检测结果。9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的时序数据异常检测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的时序数据异常检测方法。
技术总结
本发明涉及人工智能,提供了时序数据异常检测方法、装置、设备及介质,通过历史时序数据构建ARIMA模型,进而采用格拉布斯方法,对ARIMA模型中的时序进行异常点检测,进而根据检测结果确定异常值阈值基准和时序预测序列,通过二者结合的方式可以提高异常数据检测的精度,并在后续需要进行数据的异常检测,直接采用得到的异常值阈值基准和时序预测序列即可,且ARIMA模型和格拉布斯模型的融合策略可以应用在在线数据的异常数据检测中,能快速响应异常诊断。应异常诊断。应异常诊断。
技术研发人员:林荣吉
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-9996.html