大气气溶胶微生物群落组成的分析方法、装置及电子设备

    专利查询2025-12-06  2


    本申请涉及电数据处理领域,具体而言,涉及一种大气气溶胶微生物群落组成的分析方法、装置及电子设备。


    背景技术:

    1、随着现代生物技术的飞速发展,微生物群落组成的分析在环境科学、生态学研究、医疗健康等多个领域扮演着日益重要的角色。大气气溶胶作为环境中的一个重要组成部分,其携带的微生物群落结构不仅反映了环境的质量状况,还与人类健康密切相关。因此,准确、高效地分析大气气溶胶中的微生物群落组成成为了当前科学研究的重要课题。传统的微生物群落分析方法通常依赖于实验室培养技术和基于pcr(聚合酶链式反应)的分子鉴定技术。然而,这些方法存在操作复杂、耗时长、成本高等缺点,且往往无法全面覆盖所有微生物种类,尤其是对于那些难以在实验室条件下培养的微生物种类。近年来,高通量测序技术的兴起为微生物群落分析提供了新的途径,通过直接对微生物的dna进行测序,能够获取大量序列数据,进而通过生物信息学方法解析微生物群落的组成。

    2、高通量测序数据的分析同样面临着诸多挑战。首先,测序数据的海量性要求分析算法必须具备高效的数据处理能力。其次,由于测序过程中存在的噪声、误差以及微生物种类的多样性,如何准确地将测序序列映射到具体的微生物物种上成为了一个关键问题。此外,微生物群落组成分析的准确性还高度依赖于训练样本的质量和数量,尤其是带有准确物种标记的监督训练样本。然而,在实际应用中,获取大量带有准确标记的监督样本往往成本高昂且耗时费力。


    技术实现思路

    1、本发明的目的在于提供一种大气气溶胶微生物群落组成的分析方法、装置及电子设备。本申请是这样实现的:

    2、第一方面,本申请提供了一种大气气溶胶微生物群落组成的分析方法,包括算法确定阶段和数据分析阶段。其中:所述算法确定阶段包括:获取微生物组成分析算法和高通量测序序列模板,所述高通量测序序列模板中的训练样例包括监督训练样例和非监督训练样例,所述监督训练样例包括对应的微生物物种标记;对于每个训练样例,对所述训练样例进行分段,获得所述训练样例的多个dna信息序列;基于所述微生物组成分析算法,分别对所述训练样例和所述训练样例的各个dna信息序列进行隐式表征抽取,获得所述训练样例的整体隐式表征数组和各个dna信息序列对应的序列隐式表征数组;根据所述监督训练样例的微生物物种标记,对所述高通量测序序列模板中各个训练样例的整体隐式表征数组进行群集分析,获得所述非监督训练样例对应的微生物物种标记;对于所述训练样例的各dna信息序列,根据所述dna信息序列对应的序列隐式表征数组和所述dna信息序列属于的训练样例的整体隐式表征数组,确定所述dna信息序列和其属于的的训练样例之间的匹配度;根据所述匹配度和所述非监督训练样例对应的微生物物种标记,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,所述目标微生物组成分析算法用于对目标高通量测序序列进行微生物群落物种分析,获得所述目标高通量测序序列的微生物物种标记。所述数据分析阶段包括:获取目标区域的目标大气气溶胶样本的目标高通量测序序列;其中,所述目标高通量测序序列是对所述目标大气气溶胶样本进行dna提取后,经聚合酶链式反应扩增,并执行高通量测序后得到的测序序列;将所述目标高通量测序序列加载到所述目标微生物组成分析算法,得到所述目标大气气溶胶样本的微生物物种标记。

    3、第二方面,本申请提供了一种大气气溶胶微生物群落组成的分析装置,包括算法训练模块和数据分析模块,其中:所述算法训练模块包括:模板获取模块,用于获取微生物组成分析算法和高通量测序序列模板,所述高通量测序序列模板中的训练样例包括监督训练样例和非监督训练样例,所述监督训练样例包括对应的微生物物种标记;数据分段模块,用于对于每个训练样例,对所述训练样例进行分段,获得所述训练样例的多个dna信息序列;特征提取模块,用于基于所述微生物组成分析算法,分别对所述训练样例和所述训练样例的各个dna信息序列进行隐式表征抽取,获得所述训练样例的整体隐式表征数组和各个dna信息序列对应的序列隐式表征数组;群集分析模块,用于根据所述监督训练样例的微生物物种标记,对所述高通量测序序列模板中各个训练样例的整体隐式表征数组进行群集分析,获得所述非监督训练样例对应的微生物物种标记;共性确定模块,用于对于所述训练样例的各dna信息序列,根据所述dna信息序列对应的序列隐式表征数组和所述dna信息序列属于的训练样例的整体隐式表征数组,确定所述dna信息序列和其属于的的训练样例之间的匹配度;算法优化模块,用于根据所述匹配度和所述非监督训练样例对应的微生物物种标记,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,所述目标微生物组成分析算法用于对目标高通量测序序列进行微生物群落物种分析,获得所述目标高通量测序序列的微生物物种标记。所述数据分析模块包括:数据获取模块,用于获取目标区域的目标大气气溶胶样本的目标高通量测序序列;其中,所述目标高通量测序序列是对所述目标大气气溶胶样本进行dna提取后,经聚合酶链式反应扩增,并执行高通量测序后得到的测序序列;标记确定模块,用于将所述目标高通量测序序列加载到所述目标微生物组成分析算法,得到所述目标大气气溶胶样本的微生物物种标记。

    4、第三方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如上所述的方法。

    5、本申请的有益效果:本申请的方案中,只用极少的监督训练样例即可完成算法的调试,无需消耗过多的成本进行样本的标记工作;根据一些监督训练样例,基于群集分析的方式生成非监督训练样例的虚拟标记,以基于没有标记的样本,也就是非监督训练样例进行算法的训练,同时将整合和序列的匹配度进行结合,能对群集分析获得的虚拟标记的扰动信息进行处理,使得虚拟标记具有更高的质量,以增加算法的训练质量,从而得到准确的物种分析结果。



    技术特征:

    1.一种大气气溶胶微生物群落组成的分析方法,其特征在于,包括算法确定阶段和数据分析阶段,其中:

    2.根据权利要求1所述的方法,其特征在于,所述根据所述监督训练样例的微生物物种标记,对所述高通量测序序列模板中各个训练样例的整体隐式表征数组进行群集分析,获得所述非监督训练样例对应的微生物物种标记,包括:

    3.根据权利要求2所述的方法,其特征在于,所述高通量测序序列关联图谱包括各个训练样例对应的样例顶点、以及样例顶点间的连接线,所述连接线表示连接的两个样例顶点之间的相关关系;所述根据所述高通量测序序列关联图谱,对所述监督训练样例的微生物物种标记进行标记扩散,获得非监督训练样例对应的微生物物种标记,包括:

    4.根据权利要求1所述的方法,其特征在于,所述对于所述训练样例的各dna信息序列,根据所述dna信息序列对应的序列隐式表征数组和所述dna信息序列属于的训练样例的整体隐式表征数组,确定所述dna信息序列和其属于的的训练样例之间的匹配度,包括:

    5.根据权利要求4所述的方法,其特征在于,所述根据所述dna信息序列的待定标记库、以及所述dna信息序列属于的训练样例的待定标记库,确定所述dna信息序列和其属于的的训练样例之间的匹配度,包括:

    6.根据权利要求1所述的方法,其特征在于,所述根据所述匹配度和所述非监督训练样例对应的微生物物种标记,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,包括:

    7.根据权利要求6所述的方法,其特征在于,所述根据所述整体物种置信度分布、所述序列物种置信度分布、所述匹配度和所述非监督训练样例对应的微生物物种标记,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,包括:

    8.根据权利要求7所述的方法,其特征在于,所述根据所述整体误差,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,包括:

    9.根据权利要求8所述的方法,其特征在于,所述根据所述整体误差和所述序列分析误差,对所述微生物组成分析算法的算法参变量进行优化,获得目标微生物组成分析算法,包括:

    10.一种大气气溶胶微生物群落组成的分析装置,其特征在于,包括算法训练模块和数据分析模块,其中:

    11.一种电子设备,其特征在于,包括:


    技术总结
    本发明提供了一种大气气溶胶微生物群落组成的分析方法、装置及电子设备,在算法的生成过程中,只用极少的监督训练样例即可完成算法的调试,无需消耗过多的成本进行样本的标记工作;根据一些监督训练样例,基于群集分析的方式生成非监督训练样例的虚拟标记,以基于没有标记的样本,也就是非监督训练样例进行算法的训练,同时将整合和序列的匹配度进行结合,能对群集分析获得的虚拟标记的扰动信息进行处理,使得虚拟标记具有更高的质量,以增加算法的训练质量,从而得到准确的物种分析结果。

    技术研发人员:陈彬
    受保护的技术使用者:中国科学院大气物理研究所
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32463.html

    最新回复(0)