1.本发明涉及生物信息处理技术领域,具体涉及一种微生物组-代谢物组特征评价和分组的方法和系统。
背景技术:
2.代谢组和微生物组在人体中普遍存在相互作用。代谢图谱密切反映了微生物的组成和功能,代谢过程和表达同时又受到微生物组的反馈调控
1.。目前,微生物组-代谢组特征评价和分组的方法多种多样,大部分为两个组学间的相关性分析和不同组别间的差异性分析。
3.相关性分析是指对2个或多个具备相关性的变量元素进行分析,从而衡量2个变量因素的相关密切程度。利用相关性分析进行关联变量的筛选是一种常用的科学研究策略。pearson积相关是karl pearson定义的经典相关分析方法
2.,它可以衡量两个数据集合是否在一条线上面,以此来衡量定距变量间的线性关系。spearman秩相关
3.是一种类似于pearson积相关方法的非参数相关方法,通过利用单调方程评价两个统计变量的相关性。随着经典相关分析的广泛应用,在此基础上发展延伸出了很多的适用于不同数据类型的相关分析方法,比如sparcc
4.和cclasso
5.,其是针对组分数据内部变量的相关性研究而产生的方法,它们能够更加精准的在该类数据集中找到关联对。最大信息系数(mic)
6.是一种非参数相关分析方法,用于衡量两个变量x和y之间的线性或非线性关联的强度,常用于特征选择。
4.差异性分析是用于识别科学实验中实验组与对照组之间是否有差异以及差异是否显著的常用数据分析方法。差异性分析通常有三种方法,分别为方差分析(anova)
7.,t检验
8.和卡方检验
9.。anova是用于两个及两个以上样本均数差别的显著性检验,通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。卡方检验通过统计样本的实际观测值与理论推断值之间的偏离程度来确定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
5.虽然传统的方法促进了大量的代谢组-微生物组特征的鉴定和识别,对了解微生物和代谢对健康和疾病的影响具有一定的帮助。然而,这些研究结果的稳健性和可靠性仍存在一些问题有待解决。首先,通常的代谢组-微生物组研究可以得到大量显著差异和相关的特征,这使得无法准确确定可靠的特征,对后续进行特征研究造成一定的困难。其次,大部分研究都只关注单个分子标记物特征,忽略了代谢组-微生物组特征与功能的隶属关系,导致无法解释这些特征的系统生物学意义。另外,传统的差异分析过于强调实验组和对照组间的差异性,忽略了代谢组-微生物组特征的丰度变化情况,往往丰度变化明显的特征更为重要和关键。
6.因此,目前需要一种由差异性分析和相关分析得到的代谢组-微生物组特征组成
的网络拓扑关系、代谢组-微生物组特征与功能的隶属关系以及代谢组-微生物组特征丰度组成的微生物组-代谢物组特征评价和分组的方法和系统来进一步识别各类疾病的代谢组-微生物组中更为关键且具有系统生物学意义的枢纽特征以及这些特征的分类情况,解决传统方法无法准确识别关键的代谢组-微生物组特征的问题,为研究各类疾病的生物标志物提供新思路新方法。
技术实现要素:
7.为了克服现有技术中的缺陷,本发明提供了一种微生物组-代谢物组特征评价和分组的方法和系统。
8.为实现上述目的,本发明采用如下技术方案:
9.本发明的第一方面是提供一种微生物组-代谢物组特征评价和分组的方法,包括如下步骤:
10.步骤一,获得代谢物特征数据、微生物特征数据、代谢组功能特征数据,以及微生物组功能特征数据;其中,代谢物特征数据为代谢物的绝对定量浓度数据,微生物特征数据为微生物物种丰度数据,微生物组功能特征数据由kegg注释得到,代谢组功能特征数据由基于kegg数据库的算法得到;
11.步骤二,将代谢物特征数据与代谢组功能特征数据合并,统称为代谢组特征数据;将微生物特征数据与微生物组功能特征数据合并,统称为微生物组特征数据;然后利用相关性分析方法进行代谢组特征数据和微生物组特征数据之间的自相关和互相关分析,得到代谢组-代谢组数据关联对特征、微生物组-微生物组数据关联对特征以及代谢组-微生物组数据关联对特征;
12.步骤三,预设的相关性系数大小和显著性大小为阈值筛选步骤二中生成的各关联对特征,之后以筛选后的关联对特征为边,构建全局相关网络;按照以下公式i计算网络节点特征的评价得分(integrated importance score,iis):
13.iis=a
·
dfs b
·
ds c
·
es d
·
as
14.其中,dfs表示差异得分;ds表示度得分;es表示边得分;as表示丰度得分;a b c d=1;
15.步骤四,通过预设的iis阈值,进一步筛选大于该iis阈值的网络节点特征,确定其为枢纽特征;
16.步骤五,基于代谢物与功能关系数据库以及微生物与功能关系数据库,确定代谢物/微生物特征与功能的隶属关系,进而对代谢组-微生物组网络节点特征进行分组,确定关键功能群;和
17.步骤六,对上述关键功能群中的代谢物-微生物关联对特征的相关性系数进行排序,确定最关键的代谢物-微生物关联对特征。
18.进一步地,步骤一中计算代谢组功能特征数据的步骤如下:
19.(1)输入原始的代谢物特征丰度数据;
20.(2)列出每个代谢物特征从属的kegg功能id;
21.(3)将原始的代谢物特征的丰度大小作为该代谢物在从属的kegg功能里面的得分,计算每个kegg功能包含的代谢物得分总和作为该kegg功能的得分;
22.(4)计算每个kegg功能包含的代谢物个数并统计该kegg功能在kegg数据库中包含的代谢物总数,算出比值;
23.(5)计算每个kegg功能的得分与步骤(4)算出的比值的商作为该功能的特征丰度值大小,即代谢组功能特征数据。
24.进一步地,步骤二中的相关性分析方法为spearman秩相关分析。
25.进一步地,步骤三中预设的相关性系数大小和显著性大小分别为|r|》0.9和p《0.05。
26.进一步地,差异得分dfs为火山图中特征节点到原点的距离;
27.度得分ds为特征节点和其他特征节点之间直接连接的边的总数;
28.边得分es等于连接到网络中某一特征节点的所有边的秩和;边的秩由该边的连接特征节点属性决定:如果一条边的两个特征节点都是差异特征节点即p《0.05,则这条边的秩和为3;如果只有一个特征节点是差异的,则边的秩和为2;如果两个特征节点都是非差异节点,则边的秩和等于1;
29.丰度得分as为代谢物特征数据、微生物特征数据、代谢组功能特征数据,或微生物组功能特征数据的丰度大小得分,丰度越大,as越大。
30.进一步地,上述差异得分dfs、度得分ds、边得分es和丰度得分as在代入公式i中之前分别进行排序和归一化处理,将四个指标得分归一化至1-3分。
31.进一步地,a=b=c=d=0.25。
32.进一步地,上述方法包括在步骤五之前,将iis阈值增大,重复步骤四。
33.本发明的第二方面是提供一种应用到上述方法中的系统,其包括:
34.一数据输入模块,输入的数据包括获得的代谢物特征数据、微生物特征数据、代谢组功能特征数据,以及微生物组功能特征数据;
35.一数据预处理模块,接收该数据输入模块的数据;将数据分为包括谢物特征数据与代谢组功能特征数据的代谢组特征数据,以及包括微生物特征数据与微生物组功能特征数据的微生物组特征数据;然后利用相关性分析方法进行代谢组特征数据和微生物组特征数据之间的自相关和互相关分析,得到代谢组-代谢组数据关联对特征、微生物组-微生物组数据关联对特征以及代谢组-微生物组数据关联对特征;
36.一特征数据评价模块,该特征数据评价模块预设相关性系数大小和显著性大小为阈值筛选上述数据预处理模块生成的各关联对特征,以筛选后的关联对特征为边,构建全局相关网络并计算网络节点特征的评价得分iis;
37.一特征数据后处理模块,预先设定iis阈值,筛选出大于该iis阈值的网络节点特征,确定其为枢纽特征;
38.一特征数据分组模块,根据其储存的代谢物与功能关系数据库以及微生物与功能关系数据库,确定代谢物/微生物特征与功能的隶属关系,进而对代谢组-微生物组网络节点特征进行分组,确定关键功能群;和
39.一特征数据筛选模块,对功能群中的代谢物-微生物关联对特征的相关性系数进行排序,确定最关键的代谢物-微生物关联对特征。
40.本发明采用以上技术方案,与现有技术相比,具有如下技术效果:
41.本发明提供的方法和系统突破了传统的单个分子标记物特征分析,可以识别各类
疾病的代谢组-微生物组中最为关键且具有系统生物学意义的特征以及这些特征的关联和分类情况,解决传统方法无法准确识别关键的代谢组-微生物组特征的问题,为研究各类疾病的双组学生物标志物提供新思路新方法,也为后续的动物实验研究提供了明确的方向和有力的证据。
附图说明
42.图1是本发明一实施例中根据kegg数据库的算法得到代谢组功能特征数据的流程图;
43.图2是本发明一实施例中评价代谢组-微生物组网络节点特征涉及的指标的原理示意图;
44.图3是本发明一实施例中根据代谢物与功能关系数据库以及微生物与功能关系数据库得到的代谢物-微生物特征与功能的隶属关系的示例图;
45.图4显示了本发明一实施例中确定的最为关键的功能群中的代谢物-微生物关联对特征的相关系排序的部分结果。
具体实施方式
46.本发明提供了一种微生物组-代谢物组特征评价和分组的方法和系统。下面通过具体实施例和附图对本发明进行详细和具体的介绍,以使更好的理解本发明,但是下述实施例并不限制本发明范围。
47.实施例1
48.本实施例提供了一种微生物组-代谢物组特征评价和分组的方法,包括如下步骤:
49.步骤一,输入代谢物特征数据、微生物特征数据、代谢组和微生物组功能特征数据,其中,代谢物特征数据为代谢物的绝对定量浓度数据,微生物特征数据为微生物物种丰度数据,微生物组功能特征数据由京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,kegg)注释得到。
50.步骤二,根据kegg数据库的算法得到代谢组功能特征数据;参考图1,具体算法如下:
51.a)用户输入原始的代谢物特征丰度数据表,a、b和c分别代表不同的代谢物;
52.b)列出每个代谢物特征从属的kegg功能id;
53.c)将原始的代谢物特征的丰度大小作为该代谢物在从属的kegg功能里面的得分,例如代谢物a同时归属于path00010、path00030、path00040和path00060四条功能,那么代谢物a在这四条功能里面的得分均为代谢物a的丰度大小;
54.d)计算每个kegg功能包含的代谢物得分总和作为该kegg功能的得分,例如path00010包含代谢物a、b、c,那么path00010这条功能总得分为代谢物a、b、c在path00010中的得分总和,即为2 5 6=13;
55.e)计算每个kegg功能包含的代谢物个数记为rank值并统计该kegg功能在kegg数据库中包含的代谢物总数,之后计算占比得分,例如path00010包括代谢物a、b、c,则该功能的rank值为3,同时path00010在kegg数据库中总共包含10个代谢物,那么该功能的占比得分为3/10=0.3;
56.f)计算每个kegg功能的得分与该功能的占比得分的商作为该功能的特征丰度值大小,即代谢组功能特征数据;
57.g)以此类推得到每个样本的多个功能的特征丰度值。
58.步骤三,将代谢物特征数据和代谢组功能特征数据合并,统称为代谢组特征数据;将微生物特征数据和微生物组功能特征数据合并,统称为微生物组特征数据。其次,利用相关性分析方法(如spearman)进行代谢组特征数据和微生物组特征数据之间的自相关(代谢组-代谢组、微生物组-微生物组)和互相关(代谢组-微生物组),得到代谢组-代谢组数据关联对特征、微生物组-微生物组数据关联对特征以及代谢组-微生物组数据关联对特征。
59.步骤四,评价代谢组-微生物组网络节点特征,进而从大量显著差异和相关的特征中找到枢纽特征;参见图2,具体的步骤如下:
60.1)以预设的相关性系数(r)大小和显著性大小(p)为阈值筛选步骤三中生成的各关联对特征,之后以筛选后的关联对特征为边,构建全局相关网络;
61.2)计算网络节点特征的评价得分(iis),该得分等于4个指标的加权和,其中4个指标得分的权重系数均为0.25,4个指标分别是:
62.①
差异得分(difference score,dfs),表示特征在组间的差异程度,可理解为火山图中特征到原点的距离,距离公式为x轴和y轴分别表示该特征的组间差异倍数fc值和差异检验的p值;
63.②
度得分(degree score,ds),表示特征的度中心性,具体为该特征在网络拓扑中的重要性,它等于该特征节点和其他特征节点之间直接连接的边的总数;
64.③
边得分(edge score,es),等于连接到网络中某一特征节点的所有边的秩和;边的秩由该边的连接特征节点属性决定:如果一条边的两个特征节点都是差异特征节点(differencial node)(p《0.05),则这条边的秩和为3;如果只有一个特征节点是差异的,则边的秩和为2;如果两个特征节点都是非差异节点(non-differencial node),则边的秩和等于1;
65.④
丰度得分(abundance score,as),由特征节点的丰度大小决定,丰度越大,as越大;
66.在计算最终的iis之前,还需要将dfs、ds、es和as4个指标得分分别进行排序和归一化,将四个指标得分归一化至1-3分,以此消除尺度差异。
67.3)通过预设的iis阈值,进一步筛选符合条件的代谢组和微生物组特征,确定其为枢纽特征。
68.步骤五,对代谢组-微生物组网络节点特征进行分组:参考图3,基于代谢物与功能关系数据库以及微生物与功能关系数据库,可以确定代谢物-微生物特征与功能的隶属关系,从而实现对特征的功能分组,找到影响疾病进程中最为关键的功能群信息。
69.步骤六,对上述关键功能群中的代谢物-微生物关联对特征的相关性系数进行排序,确定最关键的若干代谢物-微生物关联对特征。
70.验证实施例
71.最新研究证明,不同物种间的差异表现可以为人类健康和疾病的临床基础研究带来新的思路。例如,猪有易患糖尿病的生活方式,即使在高脂肪、高果糖和高碳水化合物饮食的诱导下,它也能抵抗2型糖尿病(t2dm)的发生和发展。研究发现猪胆酸(hca)是一种微
生物代谢产物,在人类和小鼠中含量很少,但在猪体内中含量较高,而且hca对t2dm的发生和发展具有保护作用,并通过促进胰高血糖素样肽-1(glp-1)的产生和分泌参与人体血糖调节。这些发现提出了许多有待进一步研究的问题,例如,哪些微生物参与了hca的生成和下游的调控?除了hca,人类和猪之间是否存在其他可能影响人类健康的代谢物、微生物或者功能差异?
72.因此,本实例通过对人和猪的血清代谢组和粪便微生物组进行了研究,进而少选出可能影响人类患糖尿病的关键枢纽特征,具体的步骤和结果如下:
73.1.数据的收集与预处理
74.本实例数据来源为10名健康男性和10头健康雄性猪的空腹血清和粪便样本,分别进行代谢物定量检测,得到代谢物特征矩阵,以及微生物组的宏基因检测,得到微生物特征矩阵以及微生物组功能特征矩阵。代谢组功能特征矩阵由代谢物特征矩阵并基于图1的算法进行转化得到。数据总共包含292个代谢物特征,71个代谢组功能特征,4641个微生物特征和449个微生物组功能特征。
75.2.差异分析和相关性分析
76.得到上述代谢物特征,代谢组功能特征,微生物特征以及微生物组功能特征之后,基于人和猪的分组方式进行组间差异分析,得到各个特征的差异分析结果。将代谢物特征以及代谢组功能特征合并,统称为代谢组特征,将微生物特征以及微生物组功能特征合并,统称为微生物组特征。接着,进行代谢组特征的自相关分析,微生物组特征的自相关分析以及代谢组特征和微生物组特征之间的互相关性分析,得到19,401,700对自相关关联对,1,580,400对互相关关联对。
77.3.代谢组-微生物组全局网络分析和功能群分组分析
78.通过预设的相关性系数大小(|r|》0.9)和显著性大小(p《0.05)为阈值构建了一个全局网络。该全局网络总共包含3933个特征节点,并采用图2所示的iis计算公式计算了这些特征节点的iis。结果显示iis》2.0的特征节点有2071个,包括32种代谢组功能特征、80种微生物组功能特征、59种代谢物特征和1900种微生物特征。由于代谢组功能特征和微生物组功能特征都是基于kegg功能数据库的,因此,在32种代谢组功能特征和80种微生物组功能特征确定了21种相同的功能特征,并以iis》2.5为筛选条件进一步挑选出其中的12种关键功能特征。接下来,对12种关键功能特征进行分组,包括碳水化合物的新陈代谢组、脂质代谢组、氨基酸代谢组、辅助因子和维生素代谢组和核苷酸代谢组,然后基于代谢物与功能关系数据库以及微生物与功能关系数据库,确定了18种代谢物特征和1178种微生物特征与这5类关键功能群的隶属关系(见图3)。最后,结合相关性大小,对功能群中代谢物-微生物关联对特征进行排序,确定了若干对关键的代谢物-微生物关联对特征,例如丙酸-champanellensis胃球菌,猪胆酸-白色胃球菌等(见图4)。至此,本实例确定了人和猪物种间最为关键的功能群信息和代谢物-微生物关联对特征。
79.4.结果讨论
80.发明人在先前的研究中发现碳水化合物和脂质代谢在2型糖尿病中发挥了重要作用,因此以上述人和猪之间发现的碳水化合物和脂质代谢两类关键功能群为例来进一步验证其在糖尿病中的重要作用,并进一步挖掘人和猪之间可能影响糖尿病发生发展的代谢物、微生物或者功能差异。采用一项独立的糖尿病研究(c-pre-dm)进行结果验证,该研究包
括30名男性的血清代谢组和粪便微生物组数据集,其中10名为健康对照组(c),10名为糖尿病前期患者(pre)以及10名2型糖尿病患者(dm)。结果发现属于人猪间碳水化合物代谢功能群的丙酸以及属于脂质代谢的hca、猪去氧胆酸(hdca)在三组验证集样本中同样存在显著差异,ruminococcus champanellensis细菌以及白色胃球菌也同样在三组样本中存在显著差异。ruminococcus champanellensis细菌和白色胃球菌是已知的纤维素降解菌
[10,11]
。流行病学和临床研究表明,膳食纤维和全谷物的摄入与肥胖、2型糖尿病、癌症和心血管等疾病呈负相关
[12,13]
。因此,作为人类肠道细菌的champanellensis胃球菌和白色胃球菌可能通过降解膳食纤维中的纤维素来干预2型糖尿病的发生和发展。丙酸是一种被广泛研究的微生物代谢产物,它可以通过异常激活胰岛素实现激素网络的负调节,从而损害胰岛素信号通路,导致胰岛素抵抗和高胰岛素血症
[14,15]
。有研究已经证实,人体内丙酸水平的升高会增加患2型糖尿病的风险
[16]
。hca和hdca在猪胆汁酸中占很大比例,它们已经在发明人前期的工作中被证实可以调节葡萄糖稳态以及预测二型糖尿病潜在风险
[17,18]
。因此,这些代谢物和微生物对糖尿病的影响以及诸如丙酸-champanellensis胃球菌关联对和猪胆酸-白色胃球菌关联对间等关键的关联对,进一步提示糖尿病的发生或发展过程中受到了这些关联对的共同调节和影响。
[0081]
综上所述,实施例1提供的一种微生物组-代谢物组特征评价和分组的方法发现了人与猪在碳水化合物和脂质代谢功能群存在差异,这种差异同样存在于正常人和2型糖尿病患者中,并与糖尿病的发生发展有关,足以说明了上述方法的结果准确性和可行性。所以,这些功能群中包含的代谢物、微生物以及功能很有可能是影响人类患糖尿病的关键枢纽特征,这为后续的动物实验研究提供了明确的方向和有力的证据。
[0082]
以上对本发明的具体实施例进行了详细描述,但其只作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
[0083]
参考文献:
[0084]
1.lee-sarwar,k.a.,et al.,metabolome-microbiome crosstalk and human disease.metabolites,2020.10(5).
[0085]
2.pearson k.mathematical contributions to the theory of evo-lution.ii.regression,heredity,and panmixia[j].philos t roy soc a,1896,187:253-318.
[0086]
3.spearman c.the proof and measurement of association be-tween two things[j].am jpsychol,1904,15(1):72-101.
[0087]
4.friedman j,alm ej.inferring correlation networks from genomic survey data[j].plos comput biol,2012,8(9):e1002687.
[0088]
5.fang h,huang c,zhao h,et al.cclasso:correlation in-ference for compositional data through lasso[j].bioinfor-matics,2015,31(19):3172-3180.
[0089]
6.reshef dn,reshef ya,finucane hk,grossman sr,mcvean g,turnbaugh pj,lander es,mitzenmacher m,sabeti pc.detecting novel associations in large data sets.science.2011dec 16;334(6062):1518-24.doi:10.1126/science.1205438.
[0090]
7.中国科学院数学研究所统计组.方差分析:科学出版社,1977
[0091]
8.尹希果主编.计量经济学原理与操作:重庆大学出版社,2009.09:37
[0092]
9.鲁庆云,刘红霞.关于列联表卡方检验在数学教育研究中的使用方法分析[j].统计与决策,2008(2):156-158.
[0093]
10.cann,i.,r.c.bernardi,and r.i.mackie,cellulose degradation in the human gut:ruminococcus champanellensis expands the cellulosome paradigm.environ microbiol,2016.18(2):p.307-10.
[0094]
11.s.,et al.,lysozyme activity of the ruminococcus champanellensis cellulosome.environ microbiol,2016.18(12):p.5112-5122.
[0095]
12.lattimer,j.m.and m.d.haub,effects of dietary fiber and its components on metabolic health.nutrients,2010.2(12):p.1266-89.
[0096]
13.pedersen,h.k.,et al.,human gut microbes impact host serum metabolome and insulin sensitivity.nature,2016.535(7612):p.376-81.
[0097]
14.adler,g.k.,et al.,acute effects of the food preservative propionic acid on glucose metabolism in humans.bmj open diabetes res care,2021.9(1).
[0098]
15.tirosh,a.,et al.,the short-chain fatty acid propionate increases glucagon and fabp4production,impairing insulin action in mice and humans.sci transl med,2019.11(489)
[0099]
16.sanna,s.,et al.,causal relationships among the gut microbiome,short-chain fatty acids and metabolic diseases.nat genet,2019.51(4):p.600-605.
[0100]
17.zheng,x.,et al.,hyocholic acid species improve glucose homeostasis through a distinct tgr5 and fxr signaling mechanism.cell metab,2021.33(4):p.791-803.e7.
[0101]
18.zheng,x.,et al.,hyocholic acid species as novel biomarkers for metabolic disorders.nat commun,2021.12(1):p.1487.
转载请注明原文地址:https://tc.8miu.com/read-3091.html