1.本技术涉及数据处理技术领域,特别涉及一种投产数据异常检测方法、投产数据异常检测装置、服务器以及计算机可读存储介质。
背景技术:
2.随着信息技术的不断发展,使用数据处理手段对各行各业的数据进行处理,以提高数据处理的效率,提前发现数据中存在的问题。
3.相关技术中,将数据处理技术用于预警企业虚开发票,该技术方案中将企业当月的相关数据与该企业前三个月的数据进行对比,针对超过异常阈值的企业,定义风险纳税企业,提高发现异常数据的效率和准确性。但是,该技术方案中所使用的方法着眼于企业的历史数据,对于长期存在异常经营的企业并不能很好的检出,同时,该技术方案中异常阈值过于依赖技术人员经验,从而导致难以设定阈值的问题,降低方法的可用性。降低了对投产数据进行检测的准确性和精度。
4.因此,如何提高投产数据进行检测的准确性是本领域技术人员关注的重点问题。
技术实现要素:
5.本技术的目的是提供一种投产数据异常检测方法、投产数据异常检测装置、服务器以及计算机可读存储介质,以提高投产异常数据检测的准确性。
6.为解决上述技术问题,本技术提供一种投产数据异常检测方法,包括:
7.基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;
8.基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;
9.基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。
10.可选的,基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据,包括:
11.将所述原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;
12.基于密度聚类算法对所述待聚类数据进行分类,得到正常单位数据;
13.基于数据矩阵形式对所述正常单位数据进行归一化处理,得到所述待检测投产数据。
14.可选的,基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型,包括:
15.基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;
16.基于训练数据对所述投产数据关系映射模型进行训练,得到所述浅层神经网络模型。
17.可选的,基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据,包括:
18.基于所述浅层神经网络模型对所述待检测投产数据的投入数据进行预测,得到预测产出数据;
19.对所述待检测投产数据的产出数据与所述预测产出数据进行差值计算,得到嫌疑值;
20.将所述嫌疑值大于预设数值的数据标记为所述异常投产数据。
21.可选的,还包括:
22.基于所述异常投产数据发送提示信息。
23.本技术还提供一种投产数据异常检测装置,包括:
24.数据预处理模块,用于基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;
25.模型训练模块,用于基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;
26.数据检测模块,用于基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。
27.可选的,所述数据预处理模块,具体用于将所述原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;基于密度聚类算法对所述待聚类数据进行分类,得到正常单位数据;基于数据矩阵形式对所述正常单位数据进行归一化处理,得到所述待检测投产数据。
28.可选的,所述模型训练模块,具体用于基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;基于训练数据对所述投产数据关系映射模型进行训练,得到所述浅层神经网络模型。
29.本技术还提供一种服务器,包括:
30.存储器,用于存储计算机程序;
31.处理器,用于执行所述计算机程序时实现如以上实施例所述的投产数据异常检测方法的步骤。
32.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的投产数据异常检测方法的步骤。
33.本技术所提供的一种投产数据异常检测方法,包括:基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。
34.通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。
35.本技术还提供一种投产数据异常检测装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
37.图1为本技术实施例所提供的一种投产数据异常检测方法的流程图;
38.图2为本技术实施例所提供的一种投产数据异常检测装置的结构示意图。
具体实施方式
39.本技术的核心是提供一种投产数据异常检测方法、投产数据异常检测装置、服务器以及计算机可读存储介质,以提高投产异常数据检测的准确性。
40.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
41.相关技术中,将数据处理技术用于预警企业虚开发票,该技术方案中将企业当月的相关数据与该企业前三个月的数据进行对比,针对超过异常阈值的企业,定义风险纳税企业,提高发现异常数据的效率和准确性。但是,该技术方案中所使用的方法着眼于企业的历史数据,对于长期存在异常经营的企业并不能很好的检出,同时,该技术方案中异常阈值过于依赖技术人员经验,从而导致难以设定阈值的问题,降低方法的可用性。降低了对投产数据进行检测的准确性和精度。
42.因此,本技术提供一种投产数据异常检测方法,通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。
43.以下通过一个实施例,对本技术提供的一种投产数据异常检测方法进行说明。
44.请参考图1,图1为本技术实施例所提供的一种投产数据异常检测方法的流程图。
45.本实施例中,该方法可以包括:
46.s101,基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;
47.本步骤旨在基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据。
48.其中,原始投产数据是以投产单位获取到的原始数据。基于异常单位特征可以从原始投产数据中剔除掉异常企业的数据,避免异常数据影响数据检测的过程,提高检测的准确性。
49.进一步的,本步骤可以包括:
50.步骤1,将原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;
51.步骤2,基于密度聚类算法对待聚类数据进行分类,得到正常单位数据;
52.步骤3,基于数据矩阵形式对正常单位数据进行归一化处理,得到待检测投产数
据。
53.可见,本可选方案主要是说明如何对原始数据进行预处理。本可选方案中,将原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据,基于密度聚类算法对待聚类数据进行分类,得到正常单位数据,基于数据矩阵形式对正常单位数据进行归一化处理,得到待检测投产数据。也就是,通过本可选方案中首先将原始投产数据中的异常单位的数据进行剔除后,再进行分类以便将数据中脱离大部分数据的异常数据进行剔除,得到正常单位数据,最后进行归一化处理,得到待检测投产数据,从原始投产数据中剔除异常企业的数据,提高数据的纯度,提高数据处理的效率。
54.s102,基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;
55.在s101的基础上,本步骤旨在基于训练数据进行训练得到浅层神经网络模型。
56.进一步的,本步骤可以包括:
57.步骤1,基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;
58.步骤2,基于训练数据对投产数据关系映射模型进行训练,得到浅层神经网络模型。
59.可见,本可选方案中主要是说明如何获取到浅层神经网络模型。本可选方案中,基于预设模型结构进行模型构建处理,得到投产数据关系映射模型,基于训练数据对投产数据关系映射模型进行训练,得到浅层神经网络模型。也就是说,本可选方案中先构建模型,然后基于训练数据进行对应的训练操作,以便提高模型的准确性。
60.s103,基于浅层神经网络模型对待检测投产数据进行检测,得到异常投产数据。
61.在s102的基础上,本步骤旨在基于该浅层神经网络模型对该待检测投产数据进行检测,得到该异常投产数据。其中,检测的过程可以先基于实际的数据进行预测,得到预测值然后与实际值之间计算差距,以便确定投产数据是否存在异常问题。
62.进一步的,本步骤可以包括:
63.步骤1,基于浅层神经网络模型对待检测投产数据的投入数据进行预测,得到预测产出数据;
64.步骤2,对待检测投产数据的产出数据与预测产出数据进行差值计算,得到嫌疑值;
65.步骤3,将嫌疑值大于预设数值的数据标记为异常投产数据。
66.可见,本可选方案中主要是说明如何进行检测。本可选方案中,基于浅层神经网络模型对待检测投产数据的投入数据进行预测,得到预测产出数据,对待检测投产数据的产出数据与预测产出数据进行差值计算,得到嫌疑值,将嫌疑值大于预设数值的数据标记为异常投产数据。
67.进一步的,本实施例还可以包括:
68.基于异常投产数据发送提示信息。
69.可见,本可选方案主要是说明如何进行提示。本可选方案中,基于异常投产数据发送提示信息。
70.综上,本实施例通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出
正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。
71.以下通过一个具体的实施例,对本技术提供的一种投产数据异常检测方法做进一步说明。
72.本实施例,考虑在真实业务场景中,企业往往缺少经营情况是否正常的标注,因此本实施例首先需要通过数据预处理的方式得到高质量的训练集。
73.首先,对数据进行预处理,通过“异常企业排除”、“噪音企业移除”的方法保证数据质量,另外,由于企业间投产的品类金额往往分散在多个量级上,因此需要对数据按照投入、产出品类进行归一化处理,使数据服从高斯分布.
74.第二步,引入浅层神经网络学习,构建企业投产映射模型,对模型内参数进行训练,该模型能够学习企业投入、产出之间的映射关系,考虑到企业的所有品类的投入与产出之间,都存在潜在的关联,因此采取全连接网络,针对性地学习投产之间的映射关系。
75.第三步,利用得到的浅层神经网络模型,输入企业的投入信息,对其产出进行预测,并将预测结果与真实结果进行对比,计算企业的投产异常“嫌疑值”,同时给出“购销因子”,该因子能够说明企业“嫌疑值”产生的来源。
76.最后,专业人员根据“嫌疑值”以及“购销因子”,对筛选出来的“高危企业”进行进一步取证。
77.为达到识别企业投入产出异常,同时使结果具有可解释性的目的,本实施例企业投产数据异常检测方法,可以包括:
78.首先,对企业投入、产出品类金额进行预处理,去除训练集中异常企业,使正常企业服从高斯分布;
79.第二步,构建企业投产映射模型,使用训练集数据对模型参数进行训练;
80.第三步,计算企业“嫌疑值”、“购销因子”;最后,稽查人员依照模型结果进行进一步取证。
81.具体包括以下实现步骤:
82.步骤1,企业投产数据预处理。
83.在真实的交易活动中,大多数企业经营情况正常,本实施例研究正常企业的投产模式,建立企业投产映射模型,然而真实数据往往缺乏企业经营情况是否正常的说明,因此需要对训练数据中的异常企业进行排除。同时企业投产数据一般具有品类复杂、金额量级多等特点,在这样的情况下,需要对企业的投产数据进行处理,从而将企业投产数据进行归一化,防止因为客观原因(如企业规模等)对模型的判断造成影响。预处理具体步骤如下:
84.第一步:异常企业排除。在真实的税务数据中,往往缺少该企业是否存在偷税漏税情况的标签。本实施例充分考虑实际情况,对于存在明显异常投产异常的企业,即投入或产出信息完全缺失的企业,可以通过直观的方法(例如数据库查询语句或简单的逻辑判断等方法)检出,为防止这类明显异常的企业对后续模型训练产生负面影响,因此提前对这些数据进行标注并移出数据集。
85.第二步:噪音企业移除。完成“异常企业排除”后,在剩余的训练数据中仍然存在部分经营情况异常的企业。进一步地,方法使用基于密度聚类的方法,移除噪音企业,即将大多数企业情况相异的企业排除在训练集之外。基于密度聚类算法认为可以通过样本分布的
紧密程度决定样本所属的类别,即正常经营的企业之间“距离“更近,而正常经营的企业和异常经营的企业之间”距离“更远。方法中有两个关键参数,分别是企业邻居搜索最大半径eps(也被称作最大邻域半径),以及代表簇内最小企业数目的密度阈值minpts。在这一方法中,还有以下几个重要定义:
86.核心企业,指该企业的eps邻域中的样本数大于minpts,即对于企业q,若|n
eps
(q)|≥minpts,其中,n
eps
(q):{q∈d|dist(p,q)≤eps},则q为核心企业;
87.边界企业,指eps邻域中的企业数目小于minpts,但该企业位于一个核心企业的eps邻域中;
88.噪音企业,指不是核心企业也不是边界企业的企业,也就是本步骤需要找到并剔除的样本企业。
89.若p∈n
eps
(q),则称企业p是从企业q直接密度可达的。若存在一连串的企业p1,
…
,pn,p1=q,pn=p,并且p
i 1
是从pi=(i=1,2,
…
,n)直接密度可达的,则称企业p是从企业q密度可达的。
90.基于密度聚类算法步骤为:随机选择一个企业p,检索所有从p密度可达的企业,如果p是一个核心企业,就形成了一个簇;如果p是一个边界企业,没有企业从p密度可达,则选择下一个企业。重复上述过程直到遍历完所有的企业。
91.完成聚类后,得到噪音企业并从训练集中移除。特别指出,基于密度聚类的方法实现了异常企业的检出,然而这一方法的参数难以确定,不适合应用在数据量较大的样本上,因此在本实施例中,仅用作对训练数据的预处理。
92.第三步:建立“投入”矩阵b以及“产出”矩阵s。模型中使用的数据有两种类型,一种作为输入数据,一种作为标准输出数据。输入数据为企业-商品矩阵,即“投入”矩阵b,矩阵的行索引表示各企业编号,列索引表示商品编码,矩阵中的值b
ij
'表示某企业购买某商品所花费的金额总量,其中i代表第i个企业,j代表第j个商品品类。与之对应的标准输出同样为企业-商品矩阵,即“产出”矩阵s,矩阵结构同上,矩阵中的值s
ij
'某企业销售某商品所赚取的金额总量,脚标所代表的含义同上。在建立以上两个矩阵时,需要对列索引进行补足,即对于每一个企业而言,都需要对应全量的商品编码。对于没有产生交易的商品,其矩阵中的值为0。
93.第四步:对“投入”矩阵b以及“产出”矩阵s进行数据归一化。由于企业规模的不同,以及商品之间成本的差异,金额分散在各个量级上,因此必须对数据做预处理。本实施例中,沿矩阵的商品轴对数据做标准化,以商品的均值为中心,以方差为单位分量。以“投入”矩阵b为例,对于每一个元素b
ij
',更新矩阵,计算b
ij
'作为矩阵中的值:
[0094][0095]
其中:
[0096]
的大小进行表示,同时提出“购销因子”,说明企业为什么存在异常。从而使税务稽查人员在后续的取证环节中有所参考。模型对数据标记的依赖小。模型充分考虑真实情况下的企业经营情况,即大多数的企业经营情况正常。方法对数据进行“异常企业排除”、“噪音企业移除”等预处理,提高数据质量,保证模型准确度。本实施例寻找的目标为与大多数企业经营情况不同的企业,因此即使训练集缺乏企业是否合规的标记,依然能够应用相关数据进行模型参数的学习。
[0112]
进一步的,在具体的应用场景中可以采用“零售业”相关企业过去一年的发票数据,操作步骤可以包括:
[0113]
步骤1,企业投产数据预处理。
[0114]
首先提取并排除投产缺失企业,之后建立“投入”矩阵b以及“产出”矩阵s最后对“投入”矩阵b以及“产出”矩阵s进行数据归一化,具体包含以下步骤:
[0115]
s201,异常企业排除。
[0116]
首先选取800家企业过去一年的发票数据作为实验的原始数据。对于每一条发票数据,使用“购方纳税人电子档案号”gfnsrdzdah、“销方纳税人电子档案号”xfnsrdzdah、“商品编码”xxhspbm、“金额”je、“货物名称”hwmc五条属性。其中,“购方纳税人电子档案号”以及“销方纳税人电子档案号”分别是企业唯一识别编码,分别对应唯一企业;“商品编码”由19位构成,能够唯一表示商品,其中,考虑到存在企业没有正确填写商品编码,因此通过机器学习的方法,根据货物名称,对商品编码进行了规范,保证前7位能够正确表示商品所属(四级目录);“金额”表明该项交易发票的金额,其中,正值表示正常交易,负值表示退货。
[0117]
在真实的业务场景中,出于各种原因,部分企业存在交易信息不全或者异常(编码等)的问题,对于实验关注的五项数据属性,如果存在异常值,则认定为该条交易存在异常,则进行删除处理,从而保证数据的完整性。
[0118]
以企业为观察对象,当企业作为购方时,认定该笔交易为“投入”;当企业作为销方时,认定该笔交易为“产出”,遍历检查零售业800家企业,发现仅有607家企业同时具有“投入”记录以及“产出”记录。对于其余的193家企业,从模型上可以认定为“有销无购”或者“有购无销”。本算法主要是对较难发现的“投入-产出”背离问题进行筛查,能够通过数据库语句检出。这里保留607家企业的信息。
[0119]
s202,噪音企业移除。
[0120]
使用基于密度聚类的方法对607家企业数据进行进一步筛查。首先确定初始半径,随机抽取十家企业,分别计算每一家企业与其余606家企业特征的欧氏距离,并找出“突变距离”,即距离产生阶跃变化前的值。计算这十家企业“突变距离“的平均值,该值能够反映出大多数企业之间特征的最大距离(即若两企业特征距离小于“突变距离”,则直观认为这两个企业特征相似。当然,这只是确认初始最大邻域半径的方法,最终半径的确定还是需要实验获得),将该值作为初始最大邻域半径。初始簇中最小样本数取3。反复实验,得到最优的参数,并获得噪音企业,将得到的噪音企业移除。通过此步骤,剩余590家企业,将这些企业的数据作为训练集。
[0121]
s203,建立“投入”矩阵b以及“产出”矩阵s。
[0122]
对于“投入”矩阵b以及“产出”矩阵s,矩阵的行索引表示各企业编号,列索引表示商品编码。首先需要对列索引进行补足,即对于每一个企业而言,都需要对应全量的商品编
码。即,每一个企业的在投入和产出过程中,可能会对应不同的商品品类。在建立“投入”矩阵b以及“产出”矩阵s时,列索引中表示企业的编号,与这些企业所有相关的投入、产出中涉及的商品编码,都应该同时出现在“投入”矩阵b以及“产出”矩阵s的列索引中。
[0123]
每一个企业对于同一商品,可能会多次购买或销售,因此需要分别对“投入”矩阵b和“产出”矩阵s中的每个元素进行计算累加。通过上述处理,“投入”矩阵b与“产出”矩阵s大小均为590*3345。即有590家企业,每一家企业对应3345个商品编码。
[0124]
s204,对“投入”矩阵b以及“产出”矩阵s进行数据归一化。以商品的均值为中心,以方差为单位分量,沿矩阵的商品轴对数据做归一化。即对每一家企业,将3345个商品编码所对应的金额进行归一化,将得到的结果存入“投入”矩阵b以及“产出”矩阵s中。以“投入”矩阵s为例,对于矩阵中每一个元素b
ij
',更新矩阵,计算b
ij
作为矩阵中的值:
[0125][0126]
其中:
[0127][0128][0129]
其中,n代表商品品类总数。处理之后,数据遵从高斯分布。对“产出”矩阵s进行相同处理。
[0130]
步骤2,构建、训练企业投产映射模型。
[0131]
企业投产映射网络采用三层神经网络,输入层与输出层增加一层全连接映射作为隐层。由于有3345个商品编码,每一层节点数均为3345个。从590家企业中,随机选取80%的企业作为训练集,其余20%的企业作为待审查对象。通过训练集的企业数据对企业投产映射模型中涉及的参数进行训练,得到映射模型f:
[0132][0133]
其中w为权重系数,m为偏置。
[0134]
步骤3,计算企业“嫌疑值”、“购销因子”。
[0135]
对上述选取的待审查对象,将其“投入”矩阵输入模型,预测正常经营情况下的“产出”结果,结合其真实的“产出”矩阵s,矩阵中每一个元素为s
ik
,计算“嫌疑值”p:
[0136][0137]
以及“购销因子”q:
[0138]
[0139]
定义嫌疑值为前5%的企业为“高危企业”,前5%到10%的企业为“预警企业”。根据计算结果,大多数(94.1%)企业嫌疑值在700以下,3.4%的企业嫌疑值在700到1000之间,另有2.5%的企业嫌疑值高达1000以上。
[0140]
可见,本实施例通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。
[0141]
下面对本技术实施例提供的投产数据异常检测装置进行介绍,下文描述的投产数据异常检测装置与上文描述的投产数据异常检测方法可相互对应参照。
[0142]
请参考图2,图2为本技术实施例所提供的一种投产数据异常检测装置的结构示意图。
[0143]
本实施例中,该装置可以包括:
[0144]
数据预处理模块100,用于基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;
[0145]
模型训练模块200,用于基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;
[0146]
数据检测模块300,用于基于浅层神经网络模型对待检测投产数据进行检测,得到异常投产数据。
[0147]
可选的,该数据预处理模块100,具体用于将原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;基于密度聚类算法对待聚类数据进行分类,得到正常单位数据;基于数据矩阵形式对正常单位数据进行归一化处理,得到待检测投产数据。
[0148]
可选的,该模型训练模块200,具体用于基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;基于训练数据对投产数据关系映射模型进行训练,得到浅层神经网络模型。
[0149]
可选的,该数据检测模块300,具体用于基于浅层神经网络模型对待检测投产数据的投入数据进行预测,得到预测产出数据;对待检测投产数据的产出数据与预测产出数据进行差值计算,得到嫌疑值;将嫌疑值大于预设数值的数据标记为异常投产数据。
[0150]
可选的,该装置还可以包括:
[0151]
提示发送模块,用于基于异常投产数据发送提示信息。
[0152]
本技术实施例还提供一种服务器,包括:
[0153]
存储器,用于存储计算机程序;
[0154]
处理器,用于执行所述计算机程序时实现如以上实施例所述的投产数据异常检测方法的步骤。
[0155]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的投产数据异常检测方法的步骤。
[0156]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明
即可。
[0157]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0158]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0159]
以上对本技术所提供的一种投产数据异常检测方法、投产数据异常检测装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
技术特征:
1.一种投产数据异常检测方法,其特征在于,包括:基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。2.根据权利要求1所述的投产数据异常检测方法,其特征在于,基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据,包括:将所述原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;基于密度聚类算法对所述待聚类数据进行分类,得到正常单位数据;基于数据矩阵形式对所述正常单位数据进行归一化处理,得到所述待检测投产数据。3.根据权利要求1所述的投产数据异常检测方法,其特征在于,基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型,包括:基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;基于训练数据对所述投产数据关系映射模型进行训练,得到所述浅层神经网络模型。4.根据权利要求1所述的投产数据异常检测方法,其特征在于,基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据,包括:基于所述浅层神经网络模型对所述待检测投产数据的投入数据进行预测,得到预测产出数据;对所述待检测投产数据的产出数据与所述预测产出数据进行差值计算,得到嫌疑值;将所述嫌疑值大于预设数值的数据标记为所述异常投产数据。5.根据权利要求1所述的投产数据异常检测方法,其特征在于,还包括:基于所述异常投产数据发送提示信息。6.一种投产数据异常检测装置,其特征在于,包括:数据预处理模块,用于基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;模型训练模块,用于基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;数据检测模块,用于基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。7.根据权利要求1所述的投产数据异常检测装置,其特征在于,所述数据预处理模块,具体用于将所述原始投产数据中标注有异常单位的数据进行剔除,得到待聚类数据;基于密度聚类算法对所述待聚类数据进行分类,得到正常单位数据;基于数据矩阵形式对所述正常单位数据进行归一化处理,得到所述待检测投产数据。8.根据权利要求1所述的投产数据异常检测装置,其特征在于,所述模型训练模块,具体用于基于预设模型结构进行模型构建处理,得到投产数据关系映射模型;基于训练数据对所述投产数据关系映射模型进行训练,得到所述浅层神经网络模型。9.一种服务器,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的投产数据异常检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的投产数据异常检测方法的步骤。
技术总结
本申请公开了一种投产数据异常检测方法,包括:基于异常单位特征信息对获取到的原始投产数据进行预处理,得到待检测投产数据;基于训练数据对构建的投产数据关系映射模型进行训练,得到浅层神经网络模型;基于所述浅层神经网络模型对所述待检测投产数据进行检测,得到异常投产数据。通过先对原始投产数据进行预处理,以便剔除原始数据中存在异常的数据,然后训练得到浅层神经网络模型,最后进行检测得到异常投产数据,实现确定出正常投产数据和异常投产数据之间的差距,而不是采用历史数据进行判断,提高异常数据检测的准确性。本申请还公开了一种投产数据异常检测装置、服务器以及计算机可读存储介质,具有以上有益效果。具有以上有益效果。具有以上有益效果。
技术研发人员:郑庆华 袁楷喆 武乐飞 师斌 刘勇 董博 涂昶 陈鹏飞
受保护的技术使用者:税友软件集团股份有限公司
技术研发日:2022.02.17
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-10618.html