基于矩阵补全的药物靶点预测方法及系统

    专利查询2023-02-21  86



    1.本发明涉及生物医药技术领域,具体涉及一种基于矩阵补全的药物靶点预测方法及系统。


    背景技术:

    2.目前中药靶点研究作为解析中药作用机制的重要任务,一方面可以准确定位药物的适应症,另一方面可以进行更好的药物类似物设计并解释药物不良事件,从而加速药物发现过程。
    3.药物靶点预测是指针对目前已有的药物,根据药物和靶点的特征,最后预测得到新的药物和靶点的相关关系。通常预测模型的设计框架为:根据药物和靶点的已有信息提取特征,通过计算机的相关技术(如人工智能和深度学习方法),构建药物和靶点的关系预测方法。目前已有的药物靶点预测方法如下:
    4.传统的药物靶点预测方法基本采用了“中药-成分-靶点”的研究策略:首先收集中药的所有成分,然后采用基于配体的靶向预测方法在蛋白质组范围内确定这些成分的潜在作用靶点,并进行体内验证。这些基础工作为中药的分子机制发现提供了更全面的认识。然而,该类策略的性能也常受到中药的生化特性和基于配体方法的缺点的限制。例如,一些中药仍然有很多成分未被发现,导致实验结果的偏差。基于配体的方法往往使用的候选靶点集只有少数已知的结合配体,很大程度上受限于目前已知结构的配体的数量,最后导致较差的预测结果。
    5.近几年的研究表明,基于复杂网络和深度学习的方法已经成功地应用于药物靶点预测。例如,yang等人使用prince方法,对中药的所有候选靶点进行预测,通过对预测得分排序进行关系预测。tao等人提出了一种结合本体推理和网络辅助基因排序的药物靶点预测方法。zong等人提出了一种基于相似度的药物靶点预测方法,该方法采用了基于拓扑的相似度度量和两种基于相似度的推理方法。此外,wang等人引入了基于网络的方法来探索药物-靶点相互作用的潜在相关性特征,并预测新的相互作用关系。
    6.在上述传统的基于网络的中药靶点预测方法中,通常仅依靠网络本身的结构去学习中药和靶点的特征表示,并没有与后续的靶点预测任务结合共同优化特征表示。另外,生物学网络往往结构复杂,包含了丰富的结构及属性信息。一些浅层模型不能表示更高级的非线性网络结构,无法全面地融合节点属性和高阶网络结构更好地学习特征。进一步考虑到预测模块的设计时,在学习得到了中药和靶点的特征后,如果直接对两者进行矩阵相乘,一方面会造成预测模型的过拟合,另一方面会丢失原始特征数据隐含的一些概括性知识。


    技术实现要素:

    7.本发明的目的在于提供一种减少了传统实验方法中对已有药物成分的依赖,充分利用中药的功效和临床效用数据,从中医临床角度出发探索中药的分子机制的基于矩阵补全的药物靶点预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
    8.为了实现上述目的,本发明采取了如下技术方案:
    9.一方面,本发明提供一种基于矩阵补全的药物靶点预测方法,包括:
    10.通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    11.优选的,将中药的功效和中药的症状关系数据通过图卷积网络对药物的特征进行嵌入表示,得到药物网络中每个药物的嵌入向量特征,即药物空间的低维特征向量。
    12.优选的,将靶点-靶点相互作用关系和靶点-疾病关系数据通过图卷积网络对基因的特征进行嵌入表示,得到基因网络中每个靶点的嵌入向量特征,即靶点空间的低维特征向量。
    13.优选的,利用每个药物的嵌入向量特征和每个靶点的嵌入向量特征来预测新的药物-靶点相互作用。
    14.优选的,构建一个特征交互矩阵,该矩阵将药物空间的低维特征向量映射到靶点空间,从而药物的投影特征向量接近已知的与其相关靶点的向量。
    15.优选的,通过映射得到药物和靶点之间的得分矩阵,使用真实的药物-靶点关系矩阵对得分矩阵不断优化,得到最终的药物和靶点的关系得分。
    16.第二方面,本发明提供一种基于矩阵补全的药物靶点预测系统,包括中央处理器,所述中央处理器被配置为:
    17.通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    18.第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的基于矩阵补全的药物靶点预测方法。
    19.第四方面,本发明提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的基于矩阵补全的药物靶点预测方法。
    20.第五方面,本发明提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于矩阵补全的药物靶点预测方法。
    21.本发明有益效果:基于图神经网络方法有效融合网络结构和节点属性信息,通过对局部表示应用多层聚合捕获更高阶的节点特征信息;进一步基于矩阵补全的方法学习原始特征隐含的抽象信息;最后将网络中中药和靶点的特征表示学习和后续的靶点预测任务结合,通过后者进一步优化特征表示,构建端到端的预测模型。
    22.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
    附图说明
    23.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
    领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
    24.图1为本发明实施例所述的基于矩阵补全并融合图卷积网络的药物靶点关系预测的深度学习框架示意图。
    具体实施方式
    25.下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
    26.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
    27.还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
    28.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
    29.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
    30.为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
    31.本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
    32.实施例1
    33.本实施例1提供一种基于矩阵补全的药物靶点预测系统,包括中央处理器,所述中央处理器被配置为:通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    34.本实施例1中,利用上述的系统,实现了基于矩阵补全的药物靶点预测方法,其中,将中药的功效和中药的症状关系数据通过图卷积网络对药物的特征进行嵌入表示,得到药物网络中每个药物的嵌入向量特征,即药物空间的低维特征向量。将靶点-靶点相互作用关系和靶点-疾病关系数据通过图卷积网络对基因的特征进行嵌入表示,得到基因网络中每个靶点的嵌入向量特征,即靶点空间的低维特征向量。利用每个药物的嵌入向量特征和每个靶点的嵌入向量特征来预测新的药物-靶点相互作用。构建一个特征交互矩阵,该矩阵将
    药物空间的低维特征向量映射到靶点空间,从而药物的投影特征向量接近已知的与其相关靶点的向量。
    35.具体的,本实施例1中,上述系统中,包含构建的基于矩阵补全并融合图卷积网络(graph convolutional network,gcn)的中药靶点关系预测的深度学习框架htigcn(herb-target interaction prediction based on gcn and matrix completion),如图1所示。
    36.htigcn主要通过图卷积网络学习中药和靶点的低维特征向量,将网络中每个中药(或靶点)节点的拓扑性质和邻域信息结合起来,捕捉非线性相互作用;并利用矩阵补全的方法对学习到的中药和靶点特征进行关系预测。将矩阵补全和图卷积网络相结合,充分利用网络的结构信息和网络中节点属性信息,并在构建的标准数据集上取得了优异的预测性能。
    37.本实施例1中,上述的框架共包含三个组成模块,每个模块及其具体工作流程阐述如下:
    38.基于图卷积网络的中药特征表示模块:基于图卷积网络的中药特征表示模块的输入数据为中药的功效和中药的症状关系数据。图卷积网络是一种基于网络的半监督节点嵌入学习框架。它将谱图卷积的一阶近似与人工神经网络相结合,利用图中样本之间更多的潜在相关性,为图结构数据的分类任务提供思路。图卷积网络是卷积神经网络的一种有效变体,可以直接对图数据进行操作,还可以基于大量的参数和非线性函数从图中提取额外的信息。最终,通过图卷积网络对中药的特征进行嵌入表示,得到中药网络中每个中药的嵌入向量特征。
    39.基于图卷积网络的基因特征表示模块:基于图卷积网络的靶点特征表示模块的输入数据为基因-基因相互作用关系和基因-疾病关系数据。然后,通过图卷积网络对基因的特征进行嵌入表示,得到基因网络中每个基因的嵌入向量特征。
    40.基于矩阵补全的中药靶点关系预测模块:使用从特征学习中获得的中药和靶点的低维特征表示向量来预测新的中药-靶点相互作用。我们应用矩阵补全方法来解决链接预测问题,通过构建一个特征交互矩阵,该矩阵将中药空间的低维特征向量映射到靶点空间,从而中药的投影特征向量接近其已知相关靶点的向量。形式上表示为我们得到了中药和靶点之间的得分矩阵,使用真实的中药靶点关系矩阵对得分矩阵不断优化。最后输出中药和靶点的关系得分。
    41.实验验证:
    42.1)基准数据集
    43.本实验使用了来自于symmap数据库相关中药的靶点作为标准数据集。我们首先依据symmap数据库收集整理已知的中药-靶点相互作用关系,并根据数据库中的筛选标准进一步筛选出p值小于0.05的具有统计学意义的紧密相关的关系数据,共提取了包含417种中药的51793种已知的中药靶点关系数据。
    44.2)在symmap数据集上的性能对比
    45.提升药物靶点预测的性能是本技术的目标。为了评价方法的性能,采用了auc、aupr、精确率、召回率和f1值作为实验的评价指标,提出的模型htigcn和其他基准方法的总体性能比较见表1。表1中的结果显示了使用10折交叉验证方法在每个评估标准下不同模型性能的平均值。根据这些结果,发现htigcn的aupr最高,达到0.48,进一步选取预测得分排
    名前top k的结果,计算其精确率、召回率和f1值。当k为20时的精确率达到0.64,召回率达到0.13,f1值达到0.20,预测性能较其他基准模型有明显提高。虽然htigcn的auc(0.97)不是最高的,但也取得了次优的有竞争力的结果,于最高的auc仅相差0.01。因此,htigcn在大多数指标上都优于所有其他模型。与其他基准模型相比,htigcn的性能有了显著的提高,说明了它在预测生物网络中新的药物-靶点相互作用方面的优性。
    46.表1模型在symmap数据集上的性能对比结果
    [0047][0048]
    3)模型的泛化性能
    [0049]
    为了评估模型相对于不同数据集的泛化性能,本节使用hit数据集中的药物靶点关系数据作为标准数据集来训练模型,并对htigcn的性能进行评价。hit数据库中的中药靶点相互作用关系的数据量小于symmap中的中药靶点关系,因此本部分是在小规模数据集上进行评估htigcn的性能。
    [0050]
    表2模型在hit数据集上的模型性能对比结果
    [0051][0052]
    具体地,在hit数据库的基础上用10折交叉验证进行了实验。表2结果表明,htigcn的aupr最好(0.26),精确率@20(0.30),召回率@20(0.30)和f1值@20(0.22),预测性能明显优于其他基准模型。同样htigcn(0.93)的auc也取得了竞争性的结果,达到次优的预测性能。因此,htigcn在大多数度量指标上获得了较好的性能,优于其他基线模型。
    [0053]
    通过对htigcn在symmap和hit数据集上的性能比较可知,htigcn在symmap数据集上具有较高的auc和aupr性能,表明基于深度学习的预测模型在大规模数据集上具有较好的性能。
    [0054]
    综上,本实施例1所述的基于矩阵补全的药物靶点预测方法及系统,首次提出了基于矩阵补全的药物靶点预测深度学习方法框架htigcn,实验结果表明该方法的性能优于现有基线方法;首次构建了从药物特征空间到靶点特征空间的动态映射过程,有效地减少矩阵分解方法可能引起的预测结果的过拟合现象。
    [0055]
    实施例2
    [0056]
    本发明实施例2提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行基于矩阵补全的药物靶点预测方法,该方法包括如下流程步骤:
    [0057]
    通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    [0058]
    实施例3
    [0059]
    本发明实施例3提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现基于矩阵补全的药物靶点预测方法,该方法包括如下流程步骤:
    [0060]
    通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    [0061]
    实施例4
    [0062]
    本发明实施例4提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行基于矩阵补全的药物靶点预测方法,该方法包括如下步骤:
    [0063]
    通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。
    [0064]
    本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
    [0065]
    本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    [0066]
    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
    [0067]
    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    [0068]
    上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范
    围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。

    技术特征:
    1.一种基于矩阵补全的药物靶点预测方法,其特征在于,包括:通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。2.根据权利要求1所述的基于矩阵补全的药物靶点预测方法,其特征在于,将中药的功效和中药的症状关系数据通过图卷积网络对药物的特征进行嵌入表示,得到药物网络中每个药物的嵌入向量特征,即药物空间的低维特征向量。3.根据权利要求2所述的基于矩阵补全的药物靶点预测方法,其特征在于,将靶点-靶点相互作用关系和靶点-疾病关系数据通过图卷积网络对基因的特征进行嵌入表示,得到基因网络中每个靶点的嵌入向量特征,即靶点空间的低维特征向量。4.根据权利要求3所述的基于矩阵补全的药物靶点预测方法,其特征在于,利用每个药物的嵌入向量特征和每个靶点的嵌入向量特征来预测新的药物-靶点相互作用。5.根据权利要求4所述的基于矩阵补全的药物靶点预测方法,其特征在于,构建一个特征交互矩阵,该矩阵将药物空间的低维特征向量映射到靶点空间,从而药物的投影特征向量接近已知的与其相关靶点的向量。6.根据权利要求5所述的基于矩阵补全的药物靶点预测方法,其特征在于,通过映射得到药物和靶点之间的得分矩阵,使用真实的药物-靶点关系矩阵对得分矩阵不断优化,得到最终的药物和靶点的关系得分。7.一种基于矩阵补全的药物靶点预测系统,其特征在于,包括中央处理器,所述中央处理器被配置为:通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。8.一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1-6任一项所述的基于矩阵补全的药物靶点预测方法。9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1-6任一项所述的基于矩阵补全的药物靶点预测方法。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于矩阵补全的药物靶点预测方法。

    技术总结
    本发明提供一种基于矩阵补全的药物靶点预测方法及系统,属于生物医药技术领域,通过图卷积网络学习药物和靶点的低维特征向量,结合图卷积网络中每个药物节点或靶点节点的拓扑性质和邻域信息,捕捉非线性相互作用;利用矩阵补全的方法对学习到的药物特征和靶点特征进行关系预测,得到靶点预测结果。本发明基于图神经网络方法有效融合网络结构和节点属性信息,通过对局部表示应用多层聚合捕获更高阶的节点特征信息;进一步基于矩阵补全的方法学习原始特征隐含的抽象信息;最后将网络中中药和靶点的特征表示学习和后续的靶点预测任务结合,通过后者进一步优化特征表示,构建端到端的预测模型。到端的预测模型。到端的预测模型。


    技术研发人员:周雪忠 王宁 夏佳楠
    受保护的技术使用者:北京交通大学
    技术研发日:2022.02.15
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-15346.html

    最新回复(0)