本发明涉及产业分类,尤其涉及确定数据要素所属产业环节的方法、系统、终端及介质。
背景技术:
1、在当前产业大数据迅猛发展的背景下,为各类数据要素打上精准的产业标签已成为了一个至关重要的课题。产业标签的准确性和全面性不仅直接关系到数据要素的有效管理和利用,更是后续数据分析、挖掘、应用等上层功能实现的基础和保障。然而,由于各类数据要素的特征千差万别,导致无法实现对各类数据要素进行精准地分类。
2、因此,现有技术还有待改进和提高。
技术实现思路
1、本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种确定数据要素所属产业环节的方法、系统、终端及介质,旨在解决现有技术中由于各类数据要素的特征千差万别,导致无法实现对各类数据要素进行精准地分类的问题。
2、为了解决上述技术问题,本发明所采用的技术方案如下:
3、第一方面,本发明提供一种确定数据要素所属产业环节的方法,其中,所述方法包括:
4、获取数据要素,确定所述数据要素所对应的数据字段,其中,所述数据字段包括一个字段或者多个字段;
5、基于所述数据字段,编写各个产业环节所对应的检索式,并将所述数据要素与各个产业环节的检索式进行匹配,得到匹配结果,所述匹配结果用于反映各个产业环节的检索式在所述数据要素中的命中情况;
6、基于所述匹配结果确定所述数据要素与各个产业环节的相关度得分,并基于所述相关度得分确定所述数据要素所属的目标产业环节。
7、在一种实现方式中,所述确定所述数据要素所对应的数据字段,包括:
8、获取产业特性;
9、基于所述产业特性,确定所述数据要素对应的数据字段,所述数据字段与所述产业特性匹配。
10、在一种实现方式中,所述基于所述数据字段,编写各个产业环节所对应的检索式,包括:
11、获取产业链图谱,其中,所述产业链图谱中包括多个节点,且每个节点代表产业链中的一个产业环节,节点与节点之间的连线表示产业环节与产业环节之间的关联与依赖关系;
12、基于所述产业链图谱,结合所述数据字段,编写各个产业环节所对应的检索式。
13、在一种实现方式中,所述基于所述匹配结果确定所述数据要素与各个产业环节的相关度得分,包括:
14、基于所述匹配结果,确定各个产业环节的检索式在所述数据要素中的命中数量;
15、获取所述数据字段所对应的权重信息;
16、基于所述权重信息与所述命中数量,确定所述数据要素与各个产业环节的相关度得分。
17、在一种实现方式中,所述相关度得分的计算公式表示为:
18、;
19、受约束于
20、;
21、;
22、其中,表示所述数据字段所对应的权重信息,表示各个产业环节的检索式在所述数据要素中的命中数量,n所述数据字段中字段的数量,f表示计分方式。
23、在一种实现方式中,若所述数据字段包括一个字段,则所述计分方式为:
24、;
25、其中为阈值。
26、在一种实现方式中,若所述数据字段包括多个字段,则所述计分方式为:
27、;
28、,;
29、;
30、;
31、其中,表示命中数量权重,表示命中比例权重,为命中数量的计算方式,具体为对各个产业环节中命中数量使用cdf进行标准化,其中代表命中数量的平均值,表示命中数量的标准差,为命中比例的计算方式,具体为使用cdf进行命中比例的标准化,表示数据要素拥有的对应数据量,是命中数量占数据要素的比例,其中代表命中比例的平均值,表示命中比例的标准差。
32、第二方面,本发明实施例还提供一种确定数据要素所属产业环节的系统,其中,所述系统包括:
33、数据字段确定模块,用于获取数据要素,确定所述数据要素所对应的数据字段,其中,所述数据字段包括一个字段或者多个字段;
34、检索式匹配模块,用于基于所述数据字段,编写各个产业环节所对应的检索式,并将所述数据要素与各个产业环节的检索式进行匹配,得到匹配结果,所述匹配结果用于反映各个产业环节的检索式在所述数据要素中的命中情况;
35、产业环节确定模块,用于基于所述匹配结果确定所述数据要素与各个产业环节的相关度得分,并基于所述相关度得分确定所述数据要素所属的目标产业环节。
36、第三方面,本发明实施例还提供一种终端,其中,所述终端包括存储器、处理器及存储在存储器中并可在处理器上运行的确定数据要素所属产业环节的程序,处理器执行确定数据要素所属产业环节的程序时,实现上述方案中任一项的确定数据要素所属产业环节的方法的步骤。
37、第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有确定数据要素所属产业环节的程序,所述确定数据要素所属产业环节的程序被处理器执行时,实现上述方案中任一项所述确定数据要素所属产业环节的方法的步骤。
38、有益效果:与现有技术相比,本发明提供了一种确定数据要素所属产业环节的方法,本发明首先获取数据要素,确定所述数据要素所对应的数据字段,其中,所述数据字段包括一个字段或者多个字段。然后,基于所述数据字段,编写各个产业环节所对应的检索式,并将所述数据要素与各个产业环节的检索式进行匹配,得到匹配结果,所述匹配结果用于反映各个产业环节的检索式在所述数据要素中的命中情况。最后,基于所述匹配结果确定所述数据要素与各个产业环节的相关度得分,并基于所述相关度得分确定所述数据要素所属的目标产业环节。本发明通过分析数据要素的数据字段与产业环节的匹配结果,确定数据字段在产业环节中的作用与重要性,分析出数据要素与产业环节的相关度得分,以便精准、全面地确定数据要素所属的产业环节。
1.一种确定数据要素所属产业环节的方法,其特征在于,所述方法包括:
2.根据权利要求1所述确定数据要素所属产业环节的方法,其特征在于,所述确定所述数据要素所对应的数据字段,包括:
3.根据权利要求1所述确定数据要素所属产业环节的方法,其特征在于,所述基于所述数据字段,编写各个产业环节所对应的检索式,包括:
4.根据权利要求1所述确定数据要素所属产业环节的方法,其特征在于,所述基于所述匹配结果确定所述数据要素与各个产业环节的相关度得分,包括:
5.根据权利要求4所述确定数据要素所属产业环节的方法,其特征在于,所述相关度得分的计算公式表示为:
6.根据权利要求5所述确定数据要素所属产业环节的方法,其特征在于,若所述数据字段包括一个字段,则所述计分方式为:
7.根据权利要求5所述确定数据要素所属产业环节的方法,其特征在于,若所述数据字段包括多个字段,则所述计分方式为:
8.一种确定数据要素所属产业环节的系统,其特征在于,所述系统包括:
9.一种终端,其特征在于,所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的确定数据要素所属产业环节的程序,所述处理器执行确定数据要素所属产业环节的程序时,实现如权利要求1-7任一项所述确定数据要素所属产业环节的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有确定数据要素所属产业环节的程序,所述确定数据要素所属产业环节的程序被处理器执行时,实现如权利要求1-7任一项所述确定数据要素所属产业环节的方法的步骤。