面向增长超图数据的分类系统及方法

专利查询2022-07-07 252

1.本技术涉及超图数据处理技术领域，特别涉及一种面向增长超图数据的分类系统及方法。

背景技术：

2.超图数据是对图结构数据的概念拓展和延伸，在图结构利用二元连接关系表示数据间关联的基础上，将表示二元连接的边结构拓展为表示多元连接的超边结构，从而能够表征数据间更加复杂的关联关系，例如群组关系、共属性关系等。基于超图数据的分类是一类得到广泛应用的分类技术，通过借助超边结构表示的数据关联，该技术能够基于超图中少量的有标签节点进行类别学习，并预测剩余数据的分类结果。
3.在实际应用过程中，需要处理和分类的超图数据会随时间不断增长和扩张，即存在大量新增的节点和超边数据，而相关技术主要基于静态超图数据输入实现超图分类，当面对动态增长的超图数据时，每次更新时均需要在整张超图结构上进行学习，导致计算资源的大量消耗，亟待解决。
4.申请内容
5.本技术提供一种面向增长超图数据的分类系统及方法，以解决相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下等问题。
6.本技术第一方面实施例提供一种面向增长超图数据的分类系统，包括：超图数据输入和维护单元，用于接收增长超图数据；模型维护单元，用于记录当前已出现并学习到的节点类别数，并针对每个已知类别维护对其进行分类的分类模型参数；增长超图学习单元，用于基于所述增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数；以及分类预测单元，用于在根据待预测的超图数据，基于所述学习后的分类模型参数对无标签的超图节点进行类别的预测，得到分类结果。
7.可选地，在本技术的一个实施例中，所述增长超图数据包含新出现的节点与超边，所述节点中将包含的有标签节点用于类别学习，所述超边中连接的节点包含旧节点和当前新增的新节点数据，以形成在时序上增长和扩张的超图结构。
8.可选地，在本技术的一个实施例中，所述超图数据输入和维护单元包括：流式超图输入子单元，用于持续性接收所述新出现的节点和超边，并将所述新出现的节点和超边暂存为新增长超图数据；模型更新触发单元，用于在满足新增阈值时，将当前维护的新增长超图数据输入送入所述增长超图学习单元。
9.可选地，在本技术的一个实施例中，所述增长超图学习单元包括：待学习超图生成子单元，用于根据所述当前维护的新增长超图数据生成用于模型学习和维护的超图数据结构；超图学习子单元，用于基于所述超图结构和所述维护后的分类模型参数，基于半监督学习方式进行模型的优化和更新，生成所述学习后的分类模型参数。
10.本技术第二方面实施例提供一种面向增长超图数据的分类方法，利用上述实施例
所述的面向增长超图数据的分类系统，其包括以下步骤：接收所述增长超图数据；记录所述当前已出现并学习到的节点类别数，并针对每个已知类别维护对其进行分类的分类模型参数；基于所述增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数；以及在根据所述待预测的超图数据，基于所述学习后的分类模型参数对无标签的超图节点进行类别的预测，得到分类结果。
11.可选地，在本技术的一个实施例中，所述增长超图数据包含新出现的节点与超边，所述节点中将包含的有标签节点用于类别学习，所述超边中连接的节点包含旧节点和当前新增的新节点数据，以形成在时序上增长和扩张的超图结构。
12.可选地，在本技术的一个实施例中，所述接收所述增长超图数据，包括：持续性接收所述新出现的节点和超边，并将所述新出现的节点和超边暂存为新增长超图数据；在满足新增阈值时，输出当前维护的新增长超图数据。
13.可选地，在本技术的一个实施例中，所述基于所述增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数，包括：根据所述当前维护的新增长超图数据生成用于模型学习和维护的超图数据结构；基于所述超图结构和所述维护后的分类模型参数，基于半监督学习方式进行模型的优化和更新，生成所述学习后的分类模型参数。
14.本技术第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的面向增长超图数据的分类方法。
15.本技术第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如权利要求5-8任一项所述的面向增长超图数据的分类方法。
16.本技术实施例可以基于持续增长超图数据记录已出现并学习到的节点类别，针对每个已知类别维护对其进行分类的分类模型参数，并对维护后的分类模型参数进行扩张和更新，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率，同时还能够时刻保持对全部已输入数据和已知类别的有效分类。由此，解决了相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下等问题。
17.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
18.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
19.图1为根据本技术实施例提供的一种面向增长超图数据的分类系统的结构示意图；
20.图2为根据本技术一个具体实施例的面向增长超图数据的分类系统的原理示意图；
21.图3为根据本技术实施例提供的一种面向增长超图数据的分类系统的流程图；
22.图4为根据本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
23.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
24.下面参考附图描述本技术实施例的面向增长超图数据的分类系统及方法。针对上述背景技术中心提到的相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下的问题，本技术提供了一种面向增长超图数据的分类系统，在该系统中，基于持续增长超图数据记录已出现并学习到的节点类别，针对每个已知类别维护对其进行分类的分类模型参数，并对维护后的分类模型参数进行扩张和更新，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率，同时还能够时刻保持对全部已输入数据和已知类别的有效分类。由此，解决了相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下等问题。
25.具体而言，图1为本技术实施例所提供的一种面向增长超图数据的分类系统的结构示意图。
26.如图1所示，该面向增长超图数据的分类系统10包括：超图数据输入和维护单元100、模型维护单元200、增长超图学习单元300和分类预测单元400。
27.具体地，超图数据输入和维护单元100，用于接收增长超图数据。
28.可以理解的是，超图数据输入和维护单元100，可以用于持续地接收并维护不断增长的超图数据。鉴于相关技术基于静态超图数据输入实现超图分类，本技术实施例可以接收并维护增长的超图数据，进而以较低的计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率。
29.可选地，在本技术的一个实施例中，增长超图数据包含新出现的节点与超边，节点中将包含的有标签节点用于类别学习，超边中连接的节点包含旧节点和当前新增的新节点数据，以形成在时序上增长和扩张的超图结构。
30.本领域技术人员可以理解到的是，增长超图数据包含新出现的节点与超边，本技术实施例可以利用节点中将包含少量比例的有标签节点用于类别学习，超边中连接多的节点可能包含此前出现的旧节点和当前新增的新节点数据，进而形成一个在时序上不断增长和扩张的超图结构。
31.可选地，在本技术的一个实施例中，超图数据输入和维护单元100包括：流式超图输入子单元和模型更新触发单元。
32.其中，流式超图输入子单元，用于持续性接收新出现的节点和超边，并将新出现的节点和超边暂存为新增长超图数据。
33.一些实施例中，流式超图输入子单元可以用于持续性的接收新增节点和超边数据，进而将新增的节点和超边数据暂存为新增超图数据。
34.模型更新触发单元，用于在满足新增阈值时，将当前维护的新增长超图数据输入送入增长超图学习单元300。
35.在实际执行过程中，模型更新触发单元的作用在于，当流式超图输入子单元接收的数据增量超过一定阈值时，将当前维护的新增超图输入送入增长超图学习单元300，进行一次模型的更新和维护。
36.其中，增长超图学习单元300的作用会在后续进行详细说明。上述阈值可以是新增节点数、新增超边数和/或新增类别的有效节点数的阈值，其具体含义及数值可由本领域技术人员根据实际情况进行设定，在此不做具体限制。
37.模型维护单元200，用于记录当前已出现并学习到的节点类别数，并针对每个已知类别维护对其进行分类的分类模型参数。
38.可以理解的是，模型维护单元200可以用于记录当前已出现并学习到的节点类别数，维护对每个已知类别进行分类的模型参数，本技术实施例通过对当前已出现并已学习的节点类别数进行记录，并进行相应的模型参数维护，保证系统可以跟随学习进度进行相应调整，增加了系统的可靠性。
39.增长超图学习单元300，用于基于增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数。
40.具体地，增长超图学习单元300基于超图数据输入和维护单元100提供的超图数据，以及模型维护单元200提供的当前分类模型参数，可以在有限制的计算时间和空间资源消耗的要求下，通过构造超图学习过程对模型参数进行扩张和更新，并反馈模型维护单元200。本技术实施例在获取增长超图数据后，可以跟随学习进度进行相应的参数更新与调整，保证了系统的可靠性。
41.可选地，在本技术的一个实施例中，增长超图学习单元300包括：待学习超图生成子单元和超图学习子单元。
42.其中，待学习超图生成子单元，用于根据当前维护的新增长超图数据生成用于模型学习和维护的超图数据结构。
43.在一些实施例中，待学习超图生成单元，可以用于生成后续进行模型学习和维护的超图数据结构，在实际执行过程中，待学习超图生成单元通过对新增超边数据进行检查和过滤，定位出新增超边数据中包含的旧节点集合，即在此前的学习过程中已经出现的节点，并在此基础上，通过对旧节点集合进行聚类和对应类别代表性节点加权聚集的方式，生成表征原旧节点的伪节点集合。基于上述方式得到的学习节点集合将因聚类过程得到可控的规模压缩，并通过类别代表性节点提供有效的数据表示，其中类别代表性节点将在超图学习单元中进行生成和维护。
44.超图学习子单元，用于基于超图结构和维护后的分类模型参数，基于半监督学习方式进行模型的优化和更新，生成学习后的分类模型参数。
45.在一些实施例中，超图学习单元，可以用于基于生成的超图结构和已有的分类模型参数，并基于半监督学习方式进行模型的优化和更新。在实际执行过程中，超图学习单元可以针对两种不同类型的增长场景进行学习，当新增超图数据中不包含新增类别时，超图学习单元可以直接基于待学习超图生成单元输出的超图结构，进行半监督学习过程，该过程以从模型维护单元取出的当前模型参数作为初始化方式，以新增数据的生成超图中的有标签节点进行分类监督，最终对分类模型参数进行优化，同时基于每一类新出现的类别节点，超图学习单元对类别代表性节点的中心位置进行加权更新；当新增超图数据中包含新
增类别时，超图学习单元首先对分类模型的分类器进行扩展，保持原有已知类别的参数的同时，新增和随机初始化新增类别数量的分类参数，并为新增类别注册其类别编号，在完成模型优化后，超图学习单元对新增类别的节点通过计算均值的方式维护其类别代表性节点。
46.分类预测单元400，用于在根据待预测的超图数据，基于学习后的分类模型参数对无标签的超图节点进行类别的预测，得到分类结果。
47.具体地，分类预测单元400可以用于在使用时调用，并输入需要预测的超图数据，并对无标签的超图节点进行类别预测，其中，预测的类别范围包含模型维护单元200当前已学习的类别集合，且分类预测单元400在进行预测时，需要读取模型维护单元200的模型参数。本技术实施例基于学习后的分类模型参数对无标签的超图节点进行类别的预测，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，并对不断增长的超图结构数据保持较高的计算学习效率。
48.下面结合图2，对本技术的一个具体实施例的原理进行详细阐述。
49.如图2所示，本技术实施例的面向增长超图数据的分类系统10主要包括：超图数据输入和维护单元100、模型维护单元200、超长超图学习单元300和分类预测单元400。
50.其中，超图数据输入和维护单元100包括流式超图输入单元和模型更新触发单元。
51.增长超图学习单元300包括待学习超图生成单元和超图学习单元。
52.上述面向增长超图数据的分类系统10在实际应用过程中的步骤如下：
53.首先，通过超图数据输入和维护单元100，持续地接收并维护不断增长的超图数据，其中，超图数据包含新出现的节点与超边，节点中将包含少量比例的有标签节点用于类别学习，超边中连接多的节点可以包含此前出现的旧节点和当前新增的新节点数据，进而形成了一个在时序上不断增长和扩张的超图结构。鉴于相关技术基于静态超图数据输入实现超图分类，本技术实施例可以接收并维护增长的超图数据，进而以较低的计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率
54.其次，利用模型维护单元200记录当前已经出现并学习到的节点类别数，并针对每个已知类别维护对其进行分类的模型参数。
55.再次，通过增长超图学习单元300，基于超图数据输入和维护单元100提供的超图数据，以及模型维护单元200提供的当前分类模型参数，在有限制的计算时间和空间资源消耗的前提下，通过构造超图学习过程对模型参数进行扩张和更新，并反馈给模型维护单元200。本技术实施例能够时刻保持对全部已输入数据和已知类别的有效分类，保证系统的可靠性。
56.最后，利用分类预测单元400，在使用时调用并输入需要预测的超图数据，并对无标签的超图节点进行类别的预测，其预测的类别范围包含模型维护单元200当前已经学习的类别集合，且分类预测单元400在进行预测时，需要读取模型维护单元200的模型参数。本技术实施例基于学习后的分类模型参数对无标签的超图节点进行类别的预测，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，并对不断增长的超图结构数据保持较高的计算学习效率。
57.根据本技术实施例提出的面向增长超图数据的分类系统，基于持续增长超图数据
记录已出现并学习到的节点类别，针对每个已知类别维护对其进行分类的分类模型参数，并对维护后的分类模型参数进行扩张和更新，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率，同时还能够时刻保持对全部已输入数据和已知类别的有效分类。由此，解决了相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下等问题。
58.其次参照附图描述根据本技术实施例提出的面向增长超图数据的分类方法。
59.图3是本技术实施例所提供的一种面向增长超图数据的分类方法的流程示意图。
60.如图3所示，该面向增长超图数据的分类方法利用上述实施例所述的面向增长超图数据的分类系统，其包括以下步骤：
61.在步骤s301中，接收增长超图数据。
62.在步骤s302中，记录当前已出现并学习到的节点类别数，并针对每个已知类别维护对其进行分类的分类模型参数。
63.在步骤s303中，基于增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数。
64.在步骤s304中，在根据待预测的超图数据，基于学习后的分类模型参数对无标签的超图节点进行类别的预测，得到分类结果。
65.可选地，在本技术的一个实施例中，增长超图数据包含新出现的节点与超边，节点中将包含的有标签节点用于类别学习，超边中连接的节点包含旧节点和当前新增的新节点数据，以形成在时序上增长和扩张的超图结构。
66.可选地，在本技术的一个实施例中，接收增长超图数据，包括：持续性接收新出现的节点和超边，并将新出现的节点和超边暂存为新增长超图数据；在满足新增阈值时，输出当前维护的新增长超图数据。
67.可选地，在本技术的一个实施例中，基于增长超图数据，在预设要求下利用构造超图学习过程对维护后的分类模型参数进行扩张和更新，得到学习后的分类模型参数，包括：根据当前维护的新增长超图数据生成用于模型学习和维护的超图数据结构；基于超图结构和维护后的分类模型参数，基于半监督学习方式进行模型的优化和更新，生成学习后的分类模型参数。
68.需要说明的是，前述对面向增长超图数据的分类系统实施例的解释说明也适用于该实施例的面向增长超图数据的分类方法，此处不再赘述。
69.根据本技术实施例提出的面向增长超图数据的分类方法，基于持续增长超图数据记录已出现并学习到的节点类别，针对每个已知类别维护对其进行分类的分类模型参数，并对维护后的分类模型参数进行扩张和更新，能够以较低计算效率保持对随时间增长扩张的超图数据的分类性能，对不断增长的超图结构数据保持较高的计算学习效率，同时还能够时刻保持对全部已输入数据和已知类别的有效分类。由此，解决了相关技术基于静态超图数据输入进行超图分类，从而导致计算资源的消耗巨大，计算学习效率低下等问题。
70.图4为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括：
71.存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
72.处理器402执行程序时实现上述实施例中提供的面向增长超图数据的分类方法。
73.进一步地，电子设备还包括：
74.通信接口403，用于存储器401和处理器402之间的通信。
75.存储器401，用于存放可在处理器402上运行的计算机程序。
76.存储器401可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
77.如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
78.可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
79.处理器402可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
80.本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的面向增长超图数据的分类方法。
81.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
82.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“n个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
83.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
84.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传
输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或n个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
85.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
86.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
87.此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
88.上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

转载请注明原文地址:https://tc.8miu.com/read-1129.html

专利

最新回复(0)