背景技术:
技术实现思路
1、本公开的各方面提供了一种生成用于区分一个或多个受试者的癌症和非癌症健康状况的特征集的方法。在一些实施例中,所述方法基于一种或多种微生物基因组特征的靶向扩增子测序。在一些实施例中,所述方法包括以下步骤:(a)提供一个或多个受试者的一种或多种核酸和对应的健康状况;(b)扩增所述一种或多种核酸的一种或多种非哺乳动物核酸的一个或多个基因组特征,由此生成经扩增的一个或多个基因组特征;(c)对所述经扩增的一个或多个基因组特征进行测序以生成一个或多个非哺乳动物测序读段;以及(d)通过将所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度与所述一个或多个受试者的所述健康状况组合来生成特征集,所述特征集被配置成区分癌症和非癌症健康状况。在一些实施例中,所述基因组特征包括微生物系统发育标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。在一些实施例中,所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。在一些实施例中,所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。在一些实施例中,所述微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。在一些实施例中,扩增包括进行聚合酶链式反应或其衍生物。在一些实施例中,聚合酶链式反应衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。在一些实施例中,所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。在一些实施例中,所述一个或多个基因组特征包括线粒体dna基因组特征。在一些实施例中,所述阻断引物抑制线粒体dna基因组特征的扩增。在一些实施例中,所述方法进一步包括富集所述一种或多种核酸。在一些实施例中,所述一种或多种核酸包括哺乳动物核酸、非哺乳动物核酸或其任何组合。在一些实施例中,核酸富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与杂交探针组合,其中所述杂交探针包括与非哺乳动物基因组特征互补的核酸序列;(b)在促进靶核酸特征与所述杂交探针之间的核酸碱基配对的条件下温育所述杂交探针和所述一种或多种哺乳动物和非哺乳动物核酸;(c)使未经结合的杂交探针和与非哺乳动物核酸结合的经杂交探针分离;以及(d)洗涤与非哺乳动物核酸结合的所述经杂交探针,由此产生一种或多种经富集的非哺乳动物核酸。在一些实施例中,洗涤被配置成去除非特异性相关核酸和其它反应组分。在一些实施例中,所述一种或多种核酸的富集包括非哺乳动物dna富集。在一些实施例中,非哺乳动物dna富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与一种或多种重组cxxc结构域蛋白组合以形成蛋白质-dna结合反应;(b)在促进所述重组cxxc结构域蛋白与所述一种或多种哺乳动物或非哺乳动物核酸的非甲基化cpg基序之间的相互作用的条件下温育所述蛋白质-dna结合反应;(c)从所述蛋白质-dna结合反应的剩余部分中分离未经结合的重组cxxc结构域蛋白和与所述非甲基化cpg核酸片段结合的重组cxxc结构域蛋白;以及(d)洗涤与所述非甲基化cpg核酸片段结合的所述重组cxxc结构域蛋白,由此产生一种或多种经富集的核酸以供扩增。在一些实施例中,洗涤被配置成去除非特异性相关核酸和蛋白质-dna结合反应组分的剩余部分。在一些实施例中,所述一种或多种核酸分子源自所述一个或多个受试者的一个或多个生物样品。在一些实施例中,所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。在一些实施例中,所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。在一些实施例中,所述哺乳动物和非哺乳动物核酸包括:dna核酸、rna核酸、微生物游离dna核酸、微生物游离rna核酸、游离dna核酸、游离rna核酸、外泌体dna核酸、外泌体rna核酸或其任何组合。在一些实施例中,所述方法包括过滤所述一个或多个非哺乳动物测序读段。在一些实施例中,过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。在一些实施例中,过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。在一些实施例中,所述方法包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。在一些实施例中,去污包括计算机模拟去污。在一些实施例中,去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。在一些实施例中,非哺乳动物测序读段映射用qiime2或其支持的其它版本进行。在一些实施例中,所述一个或多个微生物参考数据库包括细菌16s rrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。在一些实施例中,所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度包括微生物功能性基因丰度、生化通路丰度或其任何组合。在一些实施例中,所述方法包括预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。在一些实施例中,预测所述宏基因组功能性含量通过picrust2进行。在一些实施例中,所述癌症包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺癌、前列腺癌、皮肤癌或其任何组合。在一些实施例中,肺癌包括非小细胞肺癌。在一些实施例中,所述癌症包括i期、ii期或iii期癌症。在一些实施例中,所述非癌症状态包括健康非癌症状态、疾病非癌症状态或其任何组合。在一些实施例中,所述疾病状态包括肺病,其中所述肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎、结节病或其任何组合。在一些实施例中,所述方法包括生成经训练的预测模型,其中所述经训练的预测模型是用所述一个或多个受试者的所述特征集和所述健康状况训练的。在一些实施例中,所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。在一些实施例中,所述经训练的预测模型包括正规化的机器学习模型。在一些实施例中,机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。
2、本文所公开的各方面提供了一种使用经训练的预测模型的输出来诊断一个或多个受试者的癌症或非癌症健康状况的方法。在一些实施例中,所述方法包括以下步骤:(a)提供一个或多个受试者的一种或多种核酸;(b)扩增一种或多种非哺乳动物核酸的一个或多个基因组特征,由此产生经扩增的一个或多个基因组特征;(c)对所述经扩增的一个或多个基因组特征进行测序以生成一个或多个非哺乳动物测序读段;以及(d)至少作为将所述一个或多个基因组特征作为输入提供给经训练的预测模型的结果,输出对所述一个或多个受试者的癌症或非癌症健康状况的诊断。在一些实施例中,所述非哺乳动物核酸包括微生物核酸。在一些实施例中,所述一种或多种核酸源自所述一个或多个受试者的一种或多种生物样品。在一些实施例中,所述一个或多个生物样品包括:组织活检样品、液体活检样品或其任何组合。在一些情况下,所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。在一些实施例中,所述一种或多种核酸包括dna、rna、游离dna、游离rna、外泌体dna、外泌体rna、游离微生物dna、游离微生物rna或其任何组合的总群体。在一些实施例中,所述一个或多个基因组特征包括微生物系统发育标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因可以包括细菌标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。在一些实施例中,所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。在一些实施例中,所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。在一些实施例中,所述微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。在一些实施例中,扩增包括进行聚合酶链式反应或其衍生物。在一些实施例中,聚合酶链式反应衍生物包括:反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。在一些实施例中,所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。在一些实施例中,所述一个或多个基因组特征包括线粒体dna基因组特征。在一些实施例中,所述阻断引物抑制线粒体dna基因组特征的扩增。在一些实施例中,所述方法包括富集所述一种或多种核酸。在一些实施例中,所述一种或多种核酸包括哺乳动物核酸、非哺乳动物核酸或其任何组合。在一些实施例中,所述哺乳动物和非哺乳动物核酸包括dna核酸、rna核酸、微生物游离dna核酸、微生物游离rna核酸、游离dna核酸核酸、游离rna核酸、外泌体dna核酸、外泌体rna核酸或其任何组合。在一些实施例中,核酸富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与杂交探针组合,其中所述杂交探针包括与非哺乳动物基因组特征互补的核酸序列;(b)在促进靶核酸特征与所述杂交探针之间的核酸碱基配对的条件下温育所述杂交探针和所述一种或多种哺乳动物和非哺乳动物核酸;(c)使未经结合的杂交探针和与非哺乳动物核酸结合的经杂交探针分离;以及(d)洗涤与非哺乳动物核酸结合的所述经杂交探针,由此产生一种或多种经富集的非哺乳动物核酸。在一些实施例中,洗涤被配置成去除非特异性相关核酸和其它反应组分。在一些实施例中,所述一种或多种核酸的富集包括非哺乳动物dna富集。在一些实施例中,非哺乳动物dna富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与一种或多种重组cxxc结构域蛋白组合以形成蛋白质-dna结合反应;(b)在促进所述重组cxxc结构域蛋白与所述一种或多种哺乳动物或非哺乳动物核酸的非甲基化cpg基序之间的相互作用的条件下温育所述蛋白质-dna结合反应;(c)从所述蛋白质-dna结合反应的剩余部分中分离未经结合的重组cxxc结构域蛋白和与所述非甲基化cpg核酸片段结合的重组cxxc结构域蛋白;以及(d)洗涤与所述非甲基化cpg核酸片段结合的所述重组cxxc结构域蛋白,由此产生一种或多种经富集的核酸以供扩增。在一些实施例中,洗涤被配置成去除非特异性相关核酸分子和所述蛋白质-dna结合反应组分的剩余部分。在一些实施例中,所述重组cxxc结构域蛋白包括:重组的含有锌指cxxc结构域的蛋白kdm2a、kdm2a、kdm2b、fbxl19、cfp1、dnmt1、mll1、mll2、mdb1、tet1、tet3、idax、cxxc5、cgbp、源自其的重组cxxc结构域或其任何组合。在一些实施例中,所述方法包括过滤所述一种或多种非哺乳动物测序。在一些实施例中,过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。在一些实施例中,过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。在一些实施例中,所述方法包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。在一些实施例中,所述去污包括计算机模拟去污。在一些实施例中,去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。在一些实施例中,非哺乳动物测序读段映射用qiime2或其支持的其它版本进行。在一些实施例中,所述一个或多个微生物参考数据库包括:细菌16s rrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。在一些实施例中,所述一个或多个基因组特征包括所述一个或多个非哺乳动物测序读段的微生物功能性基因、生化通路的丰度或其任何组合丰度。在一些实施例中,所述方法包括预测所述经去污的微生物分类学分配的所述宏基因组功能性含量,由此产生一个或多个功能性丰度。在一些实施例中,宏基因组功能性含量通过picrust2进行。在一些实施例中,所述癌症健康状况包括:肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺癌、前列腺癌、皮肤癌或其任何组合。在一些实施例中,肺癌包括非小细胞肺癌。在一些实施例中,所述癌症包括i期、ii期或iii期癌症。在一些实施例中,所述非癌症状态包括健康非癌症状态、疾病非癌症状态或其任何组合。在一些实施例中,所述疾病状态包括肺病,其中所述肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎、结节病或其任何组合。在一些实施例中,所述经训练的预测模型是用一个或多个受试者的特征集和健康状况训练的。在一些实施例中,所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。在一些实施例中,所述经训练的预测模型包括正规化的机器学习模型。在一些实施例中,机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。
3、本文公开的各方面提供了一种用于诊断一个或多个受试者的癌或非癌健康状况的系统。在一些实施例中,所述系统包括:(a)处理器;以及(b)包含软件的非暂时性计算机可读存储介质,所述软件被配置成使所述处理器:(i)接收一个或多个受试者的生物样品的所述一个或多个受试者的一个或多个核酸测序读段,其中所述一个或多个核酸测序读段包括一种或多种非哺乳动物核酸的经扩增的一个或多个基因组特征;以及(ii)至少作为将所述一个或多个非哺乳动物核酸测序读段的一个或多个基因组特征作为输入提供给经训练的预测模型的结果,输出对所述一个或多个受试者的癌或非癌健康状况的诊断。在一些实施例中,所述非哺乳动物核酸可以包括微生物核酸。在一些实施例中,所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。在一些实施例中,所述一个或多个受试者可以包括人受试者、非人哺乳动物受试者或其任何组合。在一些实施例中,所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述一种或多种核酸包括:dna、rna、游离dna、游离rna、外泌体dna、外泌体rna、游离微生物dna、游离微生物rna或其任何组合。在一些实施例中,所述基因组特征可以包括微生物系统发育标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因可以包括细菌标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因可以包括真菌标记基因或其标记基因片段。在一些实施例中,所述细菌标记基因包括核糖体rna基因。在一些实施例中,所述核糖体rna基因包括5s核糖体rna基因、16s核糖体rna基因、23s核糖体rna基因或其任何组合。在一些实施例中,所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。在一些实施例中,所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。在一些实施例中,所述微生物系统发育标记基因可以包括细菌标记基因、真菌标记基因或其任何组合。在一些实施例中,所述一种或多种非哺乳动物核酸的所述经扩增的一个或多个基因组特征是通过聚合酶链式反应或其衍生物扩增的。在一些实施例中,聚合酶链式反应衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。在一些实施例中,所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。在一些实施例中,所述一个或多个基因组特征包括线粒体dna基因组特征。在一些实施例中,所述阻断引物抑制线粒体dna基因组特征的扩增。在一些实施例中,所述一个或多个核酸测序读段包括一种或多种经富集的核酸的测序读段。在一些实施例中,所述一种或多种核酸可以包括哺乳动物核酸、非哺乳动物核酸或其任何组合。在一些实施例中,所述一种或多种经富集的核酸分子是通过以下产生的:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与杂交探针组合,其中所述杂交探针包括与非哺乳动物基因组特征互补的核酸序列;(b)在促进靶核酸特征与所述杂交探针之间的核酸碱基配对的条件下温育所述杂交探针和所述一种或多种哺乳动物和非哺乳动物核酸;(c)使未经结合的杂交探针和与非哺乳动物核酸结合的经杂交探针分离;以及(d)洗涤与非哺乳动物核酸结合的所述经杂交探针,由此产生一种或多种经富集的非哺乳动物核酸。在一些实施例中,洗涤被配置成去除非特异性相关核酸和其它反应组分。在一些实施例中,所述一种或多种经富集的核酸分子是通过非哺乳动物dna富集产生的。在一些实施例中,所述非哺乳动物富集包括:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与一种或多种重组cxxc结构域蛋白组合以形成蛋白质-dna结合反应;(b)在促进所述重组cxxc结构域蛋白与所述一种或多种哺乳动物或非哺乳动物核酸的非甲基化cpg基序之间的相互作用的条件下温育所述蛋白质-dna结合反应;(c)从所述蛋白质-dna结合反应的剩余部分中分离未经结合的重组cxxc结构域蛋白和与所述非甲基化cpg核酸片段结合的重组cxxc结构域蛋白;以及(d)洗涤与所述非甲基化cpg核酸片段结合的所述重组cxxc结构域蛋白,由此产生一种或多种经富集的核酸以供扩增。在一些实施例中,洗涤被配置成去除非特异性相关核酸和蛋白质-dna结合反应组分的剩余部分。在一些实施例中,所述重组cxxc结构域蛋白包括:重组的含有锌指cxxc结构域的蛋白kdm2a、kdm2a、kdm2b、fbxl19、cfp1、dnmt1、mll1、mll2、mdb1、tet1、tet3、idax、cxxc5、cgbp、源自其的重组cxxc结构域或其任何组合。在一些实施例中,所述软件配置所述处理器以过滤所述一个或多个核酸测序读段。在一些实施例中,过滤包括过滤所述一个或多个测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。在一些实施例中,过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。在一些实施例中,所述软件配置所述处理器以对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。在一些实施例中,所述去污包括计算机模拟去污。在一些实施例中,去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。在一些实施例中,映射用qiime2或其支持的其它版本进行。在一些实施例中,所述一个或多个微生物参考数据库包括:细菌16s rrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。在一些实施例中,所述经扩增的一个或多个基因组特征包括一个或多个非哺乳动物测序读段的微生物功能性基因、生化通路的丰度或其任何组合丰度。在一些实施例中,预测宏基因组功能性含量在经去污的微生物分类学分配上进行,由此产生一个或多个功能性丰度。在一些实施例中,所述软件配置所述处理器以预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。在一些实施例中,预测所述宏基因组功能性含量通过picrust2进行。在一些实施例中,所述癌健康状况包括:肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺癌、前列腺癌、皮肤癌或其任何组合。在一些实施例中,肺癌包括非小细胞肺癌。在一些实施例中,所述癌健康状况包括i期、ii期或iii期癌症。在一些实施例中,所述非癌健康状况包括健康、疾病或其任何组合非癌状况。在一些实施例中,所述疾病状态可以包括肺病,其中肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎、结节病或其任何组合。在一些实施例中,所述经训练的预测模型是用所述一个或多个受试者的一个或多个基因组特征集和所述健康状况训练的。在一些实施例中,所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。在一些实施例中,所述经训练的预测模型包括正规化的机器学习模型。在一些实施例中,机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。在一些实施例中,所述癌健康状况包括一种或多种类型的癌症、一种或多种癌症亚型、癌症分期、癌症预后或其任何组合。在一些实施例中,所述癌或非癌健康状况包括癌症或疾病的类别、组织特异性位置或其任何组合。在一些实施例中,所述经训练的预测模型用于预测所述一个或多个受试者的癌症疗法应答。在一些实施例中,所述经训练的预测模型用于选择针对所述一个或多个受试者的最佳疗法。在一些实施例中,所述经训练的预测模型用于对一个或多个受试者的一种或多种癌症对疗法的应答过程进行纵向建模并且然后调整治疗方案。在一些实施例中,所述癌健康状况可以包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合癌症。在一些实施例中,所述经训练的预测模型可以被配置成去除受污染的非哺乳动物特征,同时选择性地保留其它未受污染的非哺乳动物特征。
4、本文所公开的各方面提供了一种生成用于区分一个或多个受试者的癌症类型的特征集的方法,所述方法包括:(a)提供一个或多个受试者的一种或多种核酸和对应的健康状况;(b)扩增所述一种或多种核酸的一种或多种非哺乳动物核酸的一个或多个基因组特征,由此生成经扩增的一个或多个基因组特征;(c)对所述经扩增的一个或多个基因组特征进行测序以生成一个或多个非哺乳动物测序读段;以及(d)通过将所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度与所述一个或多个受试者的所述健康状况组合来生成特征集,所述特征集被配置成区分癌症类型。在一些实施例中,所述基因组特征包括微生物系统发育标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。在一些实施例中,所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。在一些实施例中,所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。在一些实施例中,所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。在一些实施例中,所述微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。在一些实施例中,扩增包括进行聚合酶链式反应或其衍生物。在一些实施例中,聚合酶链式反应衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。在一些实施例中,所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。在一些实施例中,所述一个或多个基因组特征包括线粒体dna基因组特征。在一些实施例中,所述阻断引物抑制线粒体dna基因组特征的扩增。在一些实施例中,所述方法进一步包括富集所述一种或多种核酸。在一些实施例中,所述一种或多种核酸包括哺乳动物核酸、非哺乳动物核酸或其任何组合。在一些实施例中,核酸富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与杂交探针组合,其中所述杂交探针包括与非哺乳动物基因组特征互补的核酸序列;(b)在促进靶核酸特征与所述杂交探针之间的核酸碱基配对的条件下温育所述杂交探针和所述一种或多种哺乳动物和非哺乳动物核酸;(c)使未经结合的杂交探针和与非哺乳动物核酸结合的经杂交探针分离;以及(d)洗涤与非哺乳动物核酸结合的所述经杂交探针,由此产生一种或多种经富集的非哺乳动物核酸。在一些实施例中,洗涤被配置成去除非特异性相关核酸和其它反应组分。在一些实施例中,所述一种或多种核酸的富集包括非哺乳动物dna富集。在一些实施例中,非哺乳动物dna富集包括以下步骤:(a)将所述一种或多种哺乳动物和非哺乳动物核酸与一种或多种重组cxxc结构域蛋白组合以形成蛋白质-dna结合反应;(b)在促进所述重组cxxc结构域蛋白与所述一种或多种哺乳动物或非哺乳动物核酸的非甲基化cpg基序之间的相互作用的条件下温育所述蛋白质-dna结合反应;(c)从所述蛋白质-dna结合反应的剩余部分中分离未经结合的重组cxxc结构域蛋白和与所述非甲基化cpg核酸片段结合的重组cxxc结构域蛋白;以及(d)洗涤与所述非甲基化cpg核酸片段结合的所述重组cxxc结构域蛋白,由此产生一种或多种经富集的核酸以供扩增。在一些实施例中,洗涤被配置成去除非特异性相关核酸和蛋白质-dna结合反应组分的剩余部分。在一些实施例中,所述一种或多种核酸分子源自所述一个或多个受试者的一个或多个生物样品。在一些实施例中,所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。在一些实施例中,所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。在一些实施例中,所述哺乳动物和非哺乳动物核酸包括:dna核酸、rna核酸、微生物游离dna核酸、微生物游离rna核酸、游离dna核酸、游离rna核酸、外泌体dna核酸、外泌体rna核酸或其任何组合。在一些实施例中,所述方法包括过滤所述一个或多个非哺乳动物测序读段。在一些实施例中,过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。在一些实施例中,过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。在一些实施例中,所述方法包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。在一些实施例中,去污包括计算机模拟去污。在一些实施例中,去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。在一些实施例中,非哺乳动物测序读段映射用qiime2或其支持的其它版本进行。在一些实施例中,所述一个或多个微生物参考数据库包括细菌16srrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。在一些实施例中,所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度包括微生物功能性基因丰度、生化通路丰度或其任何组合。在一些实施例中,所述方法包括预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。在一些实施例中,预测所述宏基因组功能性含量通过picrust2进行。在一些实施例中,所述癌症包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺癌、前列腺癌、皮肤癌或其任何组合。在一些实施例中,肺癌包括非小细胞肺癌。在一些实施例中,所述癌症包括i期、ii期或iii期癌症。在一些实施例中,所述方法包括生成经训练的预测模型,其中所述经训练的预测模型是用所述一个或多个受试者的所述特征集和所述健康状况训练的。在一些实施例中,所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。在一些实施例中,所述经训练的预测模型包括正规化的机器学习模型。在一些实施例中,机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。
5、本文所提供的公开内容的各方面描述了一种确定受试者的疾病的方法,所述方法包括:接收受试者的生物样品、电子病历信息和一个或多个放射性图像;对从所述生物样品中分离出的一种或多种核酸分子进行测序,由此生成一个或多个核酸分子测序读段;以及在预测模型提供所述受试者的一个或多个核酸分子测序读段、电子病历信息和源自一个或多个放射性图像的数据作为输入时,确定所述受试者的疾病作为预测模型的输出。在一些实施例中,所述方法进一步包括鉴定来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述预测模型提供来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述生物样品包括液体活检、组织活检或其组合。在一些实施例中,所述一个或多个放射性图像包括x光图像、计算机断层扫描(ct)图像、低剂量计算机断层扫描图像、磁共振成像(mri)图像、超声波图像、正电子发射断层扫描图像、透视图像、血管造影图像或其任何组合。在一些实施例中,所述癌症包括直径小于3厘米的肿瘤块。在一些实施例中,测序包括基于扩增子的16s rrna测序。在一些实施例中,所述基于扩增子的16s rrna测序对所述一种或多种核酸分子的v6区进行测序。在一些实施例中,所述一种或多种核酸分子包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合。在一些实施例中,所述液体活检包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述方法进一步包括计算所述一个或多个放射性图像的一个或多个特征,其中所述一个或多个放射性图像的一个或多个特征作为输入向所述预测模型提供。在一些实施例中,所述一个或多个特征包括布洛克癌症概率评分、病变直径、病变棘突、病变坚实度或其任何组合。在一些实施例中,所述方法进一步包括将所述一个或多个核酸测序读段相对于基因组数据库进行映射或比对以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期、iii期或iv期。在一些实施例中,所述方法进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,测序包括鸟枪法宏基因组测序、下一代测序、长读段测序或其任何组合。在一些实施例中,所述方法进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、bowtie2、kraken或其任何组合完成。
6、本文所提供的公开内容的另一方面描述了一种方法,其包括:接收一个或多个受试者的生物样品、电子病历信息、源自一个或多个放射性图像的数据以及对应疾病;对从所述生物样品中分离出的一种或多种核酸分子进行测序,由此生成一个或多个核酸分子测序读段;以及鉴定对应于所述一个或多个受试者的所述疾病的所述一个或多个核酸分子测序读段的一个或多个特征、电子病历信息以及源自一个或多个放射性图像的数据。在一些实施例中,鉴定包括将所述一个或多个测序读段与基因组数据库进行比对。在一些实施例中,所述方法进一步包括用所述核酸分子测序读段的所述一个或多个特征、电子病历信息和源自所述一个或多个放射性图像的所述数据以及所述一个或多个受试者的对应疾病来训练预测模型。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述方法进一步包括鉴定所述受试者的所述生物样品的一种或多种蛋白质生物标记物的一种或多种特征。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述生物样品包括液体活检、组织活检或其组合。在一些实施例中,所述一个或多个放射性图像包括x光图像、计算机断层扫描(ct)图像、低剂量计算机断层扫描图像、磁共振成像(mri)图像、超声波图像、正电子发射断层扫描图像、透视图像、血管造影图像或其任何组合。在一些实施例中,所述癌症包括直径小于3厘米的肿瘤块。在一些实施例中,测序包括基于扩增子的16s rrna测序。在一些实施例中,所述基于扩增子的16s rrna测序对所述一种或多种核酸分子的v6区进行测序。在一些实施例中,所述一种或多种核酸分子包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合。在一些实施例中,所述液体活检包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述一个或多个放射性图像特征包括布洛克癌症概率评分、病变直径、病变棘突、病变坚实度或其任何组合。在一些实施例中,所述方法进一步包括将所述一个或多个核酸测序读段相对于基因组数据库进行映射或比对以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期或iii期或iv期。在一些实施例中,所述方法进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,测序包括鸟枪法测序、下一代测序、长读段测序或其任何组合。在一些实施例中,所述方法进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、bowtie2、kraken或其任何组合完成。
7、本文所提供的公开内容的另一方面描述了一种被配置成确定受试者的疾病的计算机系统,所述计算机系统包括:(a)一个或多个处理器;以及(b)包含软件的非暂时性计算机可读存储介质,其中所述软件包括可执行指令,所述可执行指令作为执行的结果使所述计算机系统的所述一个或多个处理器:(i)接收受试者的生物样品的一个或多个测序读段、电子病历信息和一个或多个图像;以及(ii)在预测模型提供所述受试者的一个或多个核酸分子测序读段、电子病历信息和源自一个或多个放射性图像的数据作为输入时,确定所述受试者的疾病作为预测模型的输出。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述生物样品包括组织活检、液体活检或其组合。在一些实施例中,所述可执行指令包括接收来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述预测模型提供来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白或其组合。在一些实施例中,所述预测模型是用所述核酸分子测序读段的所述一个或多个特征、电子病历信息和源自所述一个或多个放射性图像的所述数据以及所述一个或多个受试者的对应疾病进行训练的。在一些实施例中,所述可执行指令包括鉴定所述受试者的所述生物样品的一种或多种蛋白质生物标记物的一个或多个特征。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述一个或多个放射性图像包括x光图像、计算机断层扫描(ct)图像、低剂量计算机断层扫描图像、磁共振成像(mri)图像、超声波图像、正电子发射断层扫描图像、透视图像、血管造影图像或其任何组合。在一些实施例中,所述癌症包括直径小于3厘米的肿瘤块。在一些实施例中,所述一个或多个核酸分子测序读段包括一个或多个基于扩增子的16s rrna测序读段。在一些实施例中,所述基于扩增子的16s rrna测序读段包括所述一种或多种核酸分子的v6区的测序读段。在一些实施例中,所述一种或多种核酸分子测序读段包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合的测序读段。在一些实施例中,所述液体活检包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述一个或多个放射性图像特征包括布洛克癌症概率评分、病变直径、病变棘突、病变坚实度或其任何组合。在一些实施例中,所述可执行指令进一步包括将所述一个或多个核酸测序读段相对于基因组数据库进行映射或比对以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期、iii期或iv期。在一些实施例中,所述可执行指令进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,所述一个或多个测序读段是通过鸟枪法测序、下一代测序、长读段测序或其任何组合产生的。在一些实施例中,所述可执行指令进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、bowtie2、kraken或其任何组合完成。
8、本文所提供的公开内容的另一方面描述了一种确定受试者疾病的方法,所述方法包括:接收来自受试者的生物样品;对所述生物样品的一种或多种核酸分子进行测序,由此生成一个或多个核酸分子测序读段;以及当预测模型提供所述受试者的一个或多个核酸分子测序读段时,确定所述受试者的疾病作为预测模型的输出,其中所述预测模型是用一个或多个液体生物样品和一个或多个组织生物样品的一个或多个核酸分子测序读段以及一个或多个受试者的对应疾病来训练的。在一些实施例中,所述疾病包括癌症、非癌疾病或其组合。在一些实施例中,所述方法进一步包括鉴定来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述预测模型提供来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述癌症包括直径小于3厘米毫米的肿瘤块。在一些实施例中,所述测序包括基于扩增子的16s rrna测序。在一些实施例中,所述基于扩增子的16srrna测序对所述一种或多种核酸分子的v6区进行测序。在一些实施例中,所述一种或多种核酸分子包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合。在一些实施例中,所述液体活检包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述方法进一步包括将所述一个或多个核酸测序读段相对于基因组数据库进行映射或比对以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征,所述特征作为输入向所述预测模型提供。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期、iii期或iv期。在一些实施例中,所述方法进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段,其中所述一个或多个经去污的核酸分子作为输入向所述预测模型提供。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,测序包括鸟枪法测序、下一代测序、长读段测序或其任何组合。在一些实施例中,所述方法进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、picrust2、bowtie2、kraken或其任何组合完成。
9、本文所提供的公开内容的另一方面描述了一种鉴定一个或多个非人类基因组特征的方法,所述方法包括:接收一个或多个液体生物样品、一个或多个组织生物样品和一个或多个受试者的对应疾病;对所述一个或多个液体生物样品和所述一个或多个组织生物样品的一个或多个核酸分子进行测序,由此生成一个或多个测序读段;以及鉴定来自一个或多个测序读段的对应于所述一个或多个受试者的所述疾病的一个或多个非人基因组特征。在一些实施例中,鉴定包括将所述一个或多个测序读段相对于基因组数据库进行比对或映射以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征。在一些实施例中,所述方法进一步包括用所述一个或多个非人基因组特征和所述一个或多个受试者的所述对应疾病来训练预测模型。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述方法进一步包括鉴定所述一种或多种液体生物样品、所述一种或多种组织生物样品或其组合的一种或多种蛋白质生物标记物的一种或多种特征。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述癌症包括直径小于3厘米的肿瘤块。在一些实施例中,所述测序包括基于扩增子的16s rrna测序。在一些实施例中,所述基于扩增子的16s rrna测序对所述一种或多种核酸分子的v6区进行测序。在一些实施例中,所述一种或多种核酸分子包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合。在一些实施例中,所述液体生物样品包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期、iii期或iv期。在一些实施例中,所述方法进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,测序包括鸟枪法测序、下一代测序、长读段测序或其任何组合。在一些实施例中,所述方法进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、picrust2、bowtie2、kraken或其任何组合完成。
10、本文所提供的公开内容的另一方面描述了一种被配置成确定受试者的疾病的计算机系统,所述计算机系统包括:(a)一个或多个处理器;以及(b)包含软件的非暂时性计算机可读存储介质,其中所述软件包括可执行指令,所述可执行指令作为执行的结果使所述计算机系统的所述一个或多个处理器:(i)接收受试者的生物样品的一个或多个测序读段;以及(ii)当预测模型提供所述受试者的一个或多个核酸分子测序读段时,确定所述受试者的疾病作为预测模型的输出,其中所述预测模型是用一个或多个液体生物样品和一个或多个组织生物样品的一个或多个核酸分子测序读段以及一个或多个受试者的对应疾病来训练的。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述疾病包括癌症或非癌疾病。在一些实施例中,所述可执行指令包括接收来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述预测模型提供来自所述受试者的所述生物样品的一种或多种蛋白质生物标记物。在一些实施例中,所述可执行指令包括鉴定所述受试者的所述生物样品的一种或多种蛋白质生物标记物的一个或多个特征。在一些实施例中,所述一种或多种蛋白质生物标记物包括癌胚抗原、骨桥蛋白、癌症抗原15-3、癌症抗原19-9、癌症抗原125、白细胞介素-8、催乳激素、细胞角蛋白19片段(cyfra 21-1)、mmp-9、stnfrii、mmp-7、抵抗素、mpo、mcp-1、gro、svegfr2、skdr、sflk-1、vegf-a、vegf-c、vegf-d、hgf、crp、mif、pdgf、ab/bb、rantes、saa、tnfrii或其组合。在一些实施例中,所述癌症包括直径小于3厘米的肿瘤块。在一些实施例中,所述一个或多个核酸分子测序读段包括一个或多个基于扩增子的16s rrna测序读段。在一些实施例中,所述基于扩增子的16srrna测序读段包括所述一种或多种核酸分子的v6区的测序读段。在一些实施例中,所述一种或多种核酸分子测序读段包括哺乳动物rna、哺乳动物dna、哺乳动物游离dna、哺乳动物游离rna、哺乳动物外泌体dna、哺乳动物外泌体rna、非人rna、非人dna、非人游离dna、非人游离rna、非人外泌体dna、非人外泌体rna、循环肿瘤dna、循环肿瘤rna或其任何组合的测序读段。在一些实施例中,所述液体生物样品包括血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。在一些实施例中,所述癌症包括肺腺癌(luad)、肺鳞状细胞癌(lusc)、小细胞肺癌(sclc)或其任何组合。在一些实施例中,所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施例中,所述可执行指令进一步包括将所述一个或多个核酸测序读段相对于基因组数据库进行映射或比对以确定所述一个或多个核酸测序读段的一个或多个人、非人或其组合特征。在一些实施例中,所述基因组数据库包括人基因组数据库。在一些实施例中,所述预测模型包括机器学习模型。在一些实施例中,所述预测模型包括神经网络、卷积神经网络、逻辑回归、随机森林、支持向量机或其任何组合。在一些实施例中,所述机器学习模型包括机器学习分类器。在一些实施例中,所述机器学习模型包括堆叠机器学习模型、一种或多种机器学习模型、集合机器学习模型或其组合。在一些实施例中,所述预测模型使用留一法验证进行训练。在一些实施例中,所述预测模型被配置成确定癌症的阶段、癌症的解剖起源或其组合。在一些实施例中,所述癌症的阶段是i期、ii期、iii期或iv期。在一些实施例中,所述可执行指令进一步包括对所述一个或多个核酸分子测序读段进行去污以产生一个或多个经去污的核酸分子测序读段。在一些实施例中,去污包括计算机模拟去污、实验对照去污或其组合。在一些实施例中,所述预测模型以至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的准确性确定所述疾病。在一些实施例中,所述一个或多个测序读段是通过鸟枪法测序、下一代测序、长读段测序或其任何组合产生的。在一些实施例中,所述可执行指令进一步包括确定所述一个或多个核酸分子测序读段的一个或多个特征。在一些实施例中,所述一种或多种核酸分子的一个或多个特征包括非微生物分类学丰度、哺乳动物基因组坐标、注释的基因组位点、哺乳动物功能性基因和/或生化通路丰度或其任何组合特征,以及与所述一个或多个特征相关的多个测序读段。在一些实施例中,所述预测模型被配置成区分所述受试者的癌症和非癌疾病。在一些实施例中,映射或比对用deblur、picrust2、bowtie2、kraken或其任何组合完成。
11、通过引用并入
12、本说明书中所提到的所有公开、专利和专利申请均通过相同的程度引用并入本文,如同特定且单独地指示每个单独的公开、专利或专利申请是通过引用并入的。
1.一种生成用于区分一个或多个受试者的癌症和非癌症健康状况的基因组特征集的方法,所述方法包括:
2.根据权利要求1所述的方法,其中所述基因组特征包括微生物系统发育标记基因或其标记基因片段。
3.根据权利要求2所述的方法,其中所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。
4.根据权利要求2所述的方法,其中所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。
5.根据权利要求3所述的方法,其中所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。
6.根据权利要求4所述的方法,其中所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。
7.根据权利要求2所述的方法,其中微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。
8.根据权利要求1所述的方法,其中扩增包括进行聚合酶链式反应或其衍生物。
9.根据权利要求8所述的方法,其中所述其衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。
10.根据权利要求8所述的方法,其中所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。
11.根据权利要求10所述的方法,其中所述一个或多个基因组特征包括线粒体dna基因组特征。
12.根据权利要求1所述的方法,其包括富集所述一种或多种核酸分子。
13.根据权利要求12所述的方法,其中所述一种或多种核酸分子包括哺乳动物核酸分子、非哺乳动物核酸分子或其任何组合。
14.根据权利要求13所述的方法,其中所述一种或多种哺乳动物核酸分子包括dna、rna、游离dna、游离rna、外泌体dna、外泌体rna或其任何组合。
15.根据权利要求13所述的方法,其中所述一种或多种非哺乳动物核酸分子包括微生物dna、微生物rna、微生物游离dna、微生物游离rna或其任何组合。
16.根据权利要求13所述的方法,其中所述富集包括:
17.根据权利要求16所述的方法,其中洗涤被配置成去除非特异性相关核酸和其它反应组分。
18.根据权利要求13所述的方法,其中所述一种或多种核酸分子的富集包括非哺乳动物dna富集。
19.根据权利要求18所述的方法,其中所述非哺乳动物dna富集包括:
20.根据权利要求19所述的方法,其中洗涤被配置成去除非特异性相关核酸分子和所述蛋白质-dna结合反应组分的剩余部分。
21.根据权利要求1所述的方法,其中所述一种或多种核酸分子源自所述一个或多个受试者的一个或多个生物样品。
22.根据权利要求21所述的方法,其中所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。
23.根据权利要求1所述的方法,其中所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。
24.根据权利要求1所述的方法,其包括过滤所述一个或多个非哺乳动物测序读段。
25.根据权利要求24所述的方法,其中过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。
26.根据权利要求25所述的方法,其中过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。
27.根据权利要求26所述的方法,其包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。
28.根据权利要求27所述的方法,其中去污包括计算机模拟去污。
29.根据权利要求27所述的方法,其中去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。
30.根据权利要求26所述的方法,其中映射用qiime2或其支持的其它版本进行。
31.根据权利要求26所述的方法,其中所述一个或多个微生物参考数据库包括细菌16srrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。
32.根据权利要求1所述的方法,其中所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度包括微生物功能性基因丰度、生化通路丰度或其任何组合。
33.根据权利要求29所述的方法,其包括预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。
34.根据权利要求33所述的方法,其中预测所述宏基因组功能性含量通过picrust2进行。
35.根据权利要求22所述的方法,其中所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。
36.根据权利要求1所述的方法,其中所述癌症包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺腺癌、前列腺癌、皮肤癌或其任何组合。
37.根据权利要求36所述的方法,其中所述肺癌包括非小细胞肺癌。
38.根据权利要求1所述的方法,其中所述非癌症健康状况包括健康、疾病或其任何组合。
39.根据权利要求38所述的方法,其中所述疾病状态包括肺病,其中所述肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎、结节病或其任何组合。
40.根据权利要求1所述的方法,其中所述癌症包括i期、ii期或iii期癌症。
41.根据权利要求1所述的方法,其包括生成经训练的预测模型,其中所述经训练的预测模型是用所述一个或多个受试者的所述特征集和所述健康状况训练的。
42.根据权利要求41所述的方法,其中所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。
43.根据权利要求41所述的方法,其中所述经训练的预测模型包括正规化机器学习模型。
44.根据权利要求42所述的方法,其中所述机器学习模型包括机器学习分类器。
45.根据权利要求42所述的方法,其中所述机器学习模型包括梯度提升机、神经网络、支持向量机、k均值、分类树、随机森林、回归或其任何组合。
46.一种诊断一个或多个受试者的癌症的方法,所述方法包括:
47.根据权利要求46所述的方法,其中所述非哺乳动物核酸分子包括微生物核酸。
48.根据权利要求46所述的方法,其中所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。
49.根据权利要求46所述的方法,其中所述一种或多种核酸分子包括dna、rna、游离dna、游离rna、外泌体dna、外泌体rna、游离微生物dna、游离微生物rna或其任何组合的总群体。
50.根据权利要求46所述的方法,其中所述一个或多个基因组特征包括微生物系统发育标记基因或其标记基因片段。
51.根据权利要求50所述的方法,其中所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。
52.根据权利要求50所述的方法,其中所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。
53.根据权利要求51所述的方法,其中所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。
54.根据权利要求52所述的方法,其中所述真菌标记基因可包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。
55.根据权利要求50所述的方法,其中所述微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。
56.根据权利要求46所述的方法,其中扩增包括进行聚合酶链式反应或其衍生物。
57.根据权利要求56所述的方法,其中所述其衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。
58.根据权利要求56所述的方法,其中所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。
59.根据权利要求58所述的方法,其中所述一个或多个基因组特征包括线粒体dna基因组特征。
60.根据权利要求46所述的方法,其包括富集所述一种或多种核酸分子。
61.根据权利要求60所述的方法,其中所述一种或多种核酸分子包括一种或多种哺乳动物核酸分子、非哺乳动物核酸分子或其任何组合。
62.根据权利要求61所述的方法,其中富集包括:
63.根据权利要求62所述的方法,其中洗涤被配置成去除非特异性相关核酸分子和其它反应组分。
64.根据权利要求61所述的方法,其中所述一种或多种核酸分子的富集包括非哺乳动物dna富集。
65.根据权利要求64所述的方法,其中所述非哺乳动物dna富集包括:
66.根据权利要求65所述的方法,其中所述重组cxxc结构域蛋白包括:重组的含有锌指cxxc结构域的蛋白kdm2a、kdm2a、kdm2b、fbxl19、cfp1、dnmt1、mll1、mll2、mdb1、tet1、tet3、idax、cxxc5、cgbp、源自其的重组cxxc结构域或其任何组合。
67.根据权利要求65所述的方法,其中洗涤被配置成去除非特异性相关核酸分子和所述蛋白质-dna结合反应组分的所述剩余部分。
68.根据权利要求46所述的方法,其中所述一种或多种核酸分子源自所述一个或多个受试者的一个或多个生物样品。
69.根据权利要求68所述的方法,其中所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。
70.根据权利要求61所述的方法,其中所述一种或多种哺乳动物核酸分子包括dna、rna、游离dna、游离rna、外泌体dna、外泌体rna或其任何组合。
71.根据权利要求61所述的方法,其中所述一种或多种非哺乳动物核酸分子包括微生物dna、微生物rna、微生物游离dna、微生物游离rna或其任何组合。
72.根据权利要求61所述的方法,其包括过滤所述一个或多个非哺乳动物测序读段。
73.根据权利要求72所述的方法,其中过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。
74.根据权利要求73所述的方法,其中过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。
75.根据权利要求74所述的方法,其包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。
76.根据权利要求75所述的方法,其中去污包括计算机模拟去污。
77.根据权利要求75所述的方法,其中去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。
78.根据权利要求74所述的方法,其中映射用qiime2或其支持的其它版本进行。
79.根据权利要求74所述的方法,其中所述一个或多个微生物参考数据库包括细菌16srrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。
80.根据权利要求46所述的方法,其中所述一个或多个基因组特征包括所述一个或多个非哺乳动物测序读段的微生物功能性基因、生化通路的丰度或其任何组合丰度。
81.根据权利要求77所述的方法,其包括预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。
82.根据权利要求81所述的方法,其中预测所述宏基因组功能性含量通过picrust2进行。
83.根据权利要求69所述的方法,其中所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。
84.根据权利要求46所述的方法,其中所述癌症健康状况包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺腺癌、前列腺癌、皮肤癌或其任何组合。
85.根据权利要求84所述的方法,其中所述肺癌包括非小细胞肺癌。
86.根据权利要求46所述的方法,其中所述非癌症状态包括健康非癌症状态、疾病非癌症状态或其任何组合。
87.根据权利要求86所述的方法,其中所述疾病包括肺病,其中所述肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎或其任何组合。
88.根据权利要求46所述的方法,其中所述癌症健康状况包括i期、ii期或iii期癌症。
89.根据权利要求46所述的方法,其中所述经训练的预测模型是用一个或多个受试者的特征集和健康状况训练的。
90.根据权利要求46所述的方法,其中所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。
91.根据权利要求46所述的方法,其中所述经训练的预测模型包括正规化机器学习模型。
92.根据权利要求90所述的方法,其中所述机器学习模型包括机器学习分类器。
93.根据权利要求90所述的方法,其中所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。
94.一种用于诊断一个或多个受试者的癌或非癌健康状况的系统,所述系统包括:
95.根据权利要求94所述的系统,其中所述非哺乳动物核酸分子包括微生物核酸。
96.根据权利要求94所述的系统,其中所述生物样品包括组织活检样品、液体活检样品或其任何组合。
97.根据权利要求94所述的系统,其中所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。
98.根据权利要求94所述的系统,其中所述一个或多个核酸分子测序读段包括dna、rna、游离dna、游离rna、外泌体dna、外泌体rna、游离微生物dna、游离微生物rna或其任何组合的测序读段。
99.根据权利要求94所述的系统,其中所述一个或多个基因组特征包括微生物系统发育标记基因或其标记基因片段。
100.根据权利要求99所述的系统,其中所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。
101.根据权利要求99所述的系统,其中所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。
102.根据权利要求100所述的系统,其中所述细菌标记基因包括核糖体rna基因。
103.根据权利要求102所述的系统,其中所述核糖体rna基因包括5s核糖体rna基因、16s核糖体rna基因、23s核糖体rna基因或其任何组合。
104.根据权利要求100所述的系统,其中所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。
105.根据权利要求101所述的系统,其中所述真菌标记基因包括:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s、内部转录间隔区1和2或其任何组合。
106.根据权利要求94所述的系统,其中所述一种或多种非哺乳动物核酸分子的所述经扩增的一个或多个基因组特征是通过聚合酶链式反应或其衍生物扩增的。
107.根据权利要求106所述的系统,其中所述其衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。
108.根据权利要求106所述的系统,其中所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。
109.根据权利要求108所述的系统,其中所述一个或多个基因组特征包括线粒体dna基因组特征。
110.根据权利要求94所述的系统,其中所述一个或多个核酸分子测序读段包括一种或多种经富集的核酸分子的测序读段。
111.根据权利要求110所述的系统,其中所述一个或多个核酸分子测序读段的所述一种或多种核酸分子包括哺乳动物核酸分子测序读段、非哺乳动物核酸分子测序读段或其任何组合。
112.根据权利要求110所述的系统,其中所述一种或多种经富集的核酸分子是通过以下产生的:
113.根据权利要求112所述的系统,其中洗涤被配置成去除非特异性相关核酸和其它反应组分。
114.根据权利要求110所述的系统,其中所述一种或多种经富集的核酸分子是通过非哺乳动物dna富集产生的。
115.根据权利要求114所述的系统,其中所述非哺乳动物dna富集包括:
116.根据权利要求115所述的系统,其中洗涤被配置成去除非特异性相关核酸分子和所述蛋白质-dna结合反应组分的所述剩余部分。
117.根据权利要求94所述的系统,其中所述软件将所述一个或多个处理器配置成过滤所述一个或多个核酸分子测序读段。
118.根据权利要求117所述的系统,其中所述过滤包括过滤所述一个或多个核酸分子测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。
119.根据权利要求118所述的系统,其中过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。
120.根据权利要求119所述的系统,其中所述软件将所述一个或多个处理器配置成对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。
121.根据权利要求120所述的系统,其中去污包括计算机模拟去污。
122.根据权利要求120所述的系统,其中所述去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。
123.根据权利要求119所述的系统,其中映射用qiime2或其支持的其它版本进行。
124.根据权利要求119所述的系统,其中所述一个或多个微生物参考数据库包括细菌16s rrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。
125.根据权利要求111所述的系统,其中所述经扩增的一个或多个基因组特征包括一个或多个非哺乳动物测序读段的微生物功能性基因、生化通路的丰度或其任何组合丰度。
126.根据权利要求122所述的系统,其中所述软件将所述一个或多个处理器配置成预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。
127.根据权利要求126所述的系统,其中预测所述宏基因组功能性含量通过picrust2进行。
128.根据权利要求94所述的系统,其中所述生物样品包括组织活检样品、液体活检样品或其任何组合。
129.根据权利要求128所述的系统,其中所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。
130.根据权利要求94所述的系统,其中所述癌健康状况包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺腺癌、前列腺癌、皮肤癌或其任何组合。
131.根据权利要求130所述的系统,其中所述肺癌包括非小细胞肺癌。
132.根据权利要求94所述的系统,其中所述非癌健康状况包括健康非癌症状态、疾病非癌症状态或其任何组合。
133.根据权利要求132所述的系统,其中所述疾病状态包括肺病,其中所述肺病包括:类癌、错构瘤、肉芽肿、间质纤维化、肺气肿、支气管炎、慢性阻塞性肺部疾病、肺炎、结节病或其任何组合。
134.根据权利要求94所述的系统,其中所述癌健康状况包括i期、ii期或iii期癌症。
135.根据权利要求94所述的系统,其中所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。
136.根据权利要求94所述的系统,其中所述经训练的预测模型包括正规化机器学习模型。
137.根据权利要求135所述的系统,其中所述机器学习模型包括机器学习分类器。
138.根据权利要求135所述的系统,其中所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。
139.根据权利要求94所述的系统,其中所述癌健康状况或所述非癌健康状况包括癌症或疾病的类别、组织特异性位置或其任何组合。
140.根据权利要求94所述的系统,其中所述癌健康状况包括一种或多种癌症类型、一种或多种癌症亚型、癌症分期、癌症预后或其任何组合。
141.根据权利要求94所述的系统,其中所述经训练的预测模型用于预测所述一个或多个受试者的癌症疗法应答。
142.根据权利要求94所述的系统,其中所述经训练的预测模型用于选择针对所述一个或多个受试者的疾病或癌症的最佳疗法。
143.根据权利要求94所述的系统,其中所述经训练的预测模型用于对所述一个或多个受试者的一种或多种癌症或一种或多种疾病对疗法的应答过程进行纵向建模并且然后调整治疗方案。
144.根据权利要求94所述的系统,其中所述癌健康状况包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级神经胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾脏嫌色细胞、肾脏肾透明细胞癌、肾脏肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样赘生物弥漫性大b细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤的皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合癌症。
145.根据权利要求94所述的系统,其中所述经训练的预测模型被配置成从所述一个或多个核酸分子测序读段中去除受污染的非哺乳动物特征,同时选择性地保留所述一种或多种非哺乳动物核酸分子的未受污染的非哺乳动物特征的序列。
146.一种生成用于区分一个或多个受试者的癌症类型的特征集的方法,所述方法包括:
147.根据权利要求146所述的方法,其中所述一个或多个基因组特征包括微生物系统发育标记基因或其标记基因片段。
148.根据权利要求147所述的方法,其中所述微生物系统发育标记基因包括细菌标记基因或其标记基因片段。
149.根据权利要求147所述的方法,其中所述微生物系统发育标记基因包括真菌标记基因或其标记基因片段。
150.根据权利要求148所述的方法,其中所述细菌标记基因包括:核糖体rna基因5s、核糖体rna基因16s、核糖体rna基因23s、细菌管家基因dnag、frr、infc、nusa、pgk、pyrg、rpla、rplb、rplc、rpld、rple、rplf、rplk、rpll、rplm、rpln、rplp、rpls、rplt、rpma、rpob、rpsb、rpsc、rpse、rpsi、rpsj、rpsk、rpsm、rpss、smpb、tsf或其任何组合。
151.根据权利要求149所述的方法,其中所述真菌标记基因可包括以下中的一者或多者:核糖体rna基因18s、核糖体rna基因5.8s、核糖体rna基因28s以及内部转录间隔区1和2。
152.根据权利要求147所述的方法,其中微生物系统发育标记基因包括细菌标记基因、真菌标记基因或其任何组合。
153.根据权利要求146所述的方法,其中扩增包括进行聚合酶链式反应或其衍生物。
154.根据权利要求153所述的方法,其中所述其衍生物包括反向pcr、锚定pcr、引物定向滚环扩增或其任何组合。
155.根据权利要求153所述的方法,其中所述聚合酶链式反应包括被配置成防止一个或多个基因组特征扩增的阻断引物、标记基因引物或其任何组合。
156.根据权利要求155所述的方法,其中所述一个或多个基因组特征包括线粒体dna基因组特征。
157.根据权利要求146所述的方法,其包括富集所述一种或多种核酸分子。
158.根据权利要求157所述的方法,其中所述一种或多种核酸分子包括哺乳动物核酸分子、非哺乳动物核酸分子或其任何组合。
159.根据权利要求158所述的方法,其中富集包括:
160.根据权利要求159所述的方法,其中洗涤被配置成去除非特异性相关核酸分子和其它反应组分。
161.根据权利要求158所述的方法,其中所述一种或多种核酸分子的富集包括非哺乳动物dna富集。
162.根据权利要求161所述的方法,其中所述非哺乳动物dna富集包括:
163.根据权利要求162所述的方法,其中洗涤被配置成去除非特异性相关核酸分子和所述蛋白质-dna结合反应组分的剩余部分。
164.根据权利要求146所述的方法,其中所述一种或多种核酸源自所述一个或多个受试者的一个或多个生物样品。
165.根据权利要求164所述的方法,其中所述一个或多个生物样品包括组织活检样品、液体活检样品或其任何组合。
166.根据权利要求146所述的方法,其中所述一个或多个受试者包括人受试者、非人哺乳动物受试者或其任何组合。
167.根据权利要求158所述的方法,其中所述一种或多种哺乳动物核酸分子包括dna核酸、rna核酸、游离dna核酸、游离rna核酸、外泌体dna核酸、外泌体rna核酸或其任何组合。
168.根据权利要求158所述的方法,其中所述一种或多种非哺乳动物核酸分子包括微生物dna、微生物rna、微生物游离dna、微生物游离rna或其任何组合。
169.根据权利要求146所述的方法,其包括过滤所述一个或多个非哺乳动物测序读段。
170.根据权利要求169所述的方法,其中过滤包括过滤所述一个或多个非哺乳动物测序读段以产生一个或多个线粒体dna耗竭的非哺乳动物测序读段。
171.根据权利要求170所述的方法,其中过滤包括将所述一个或多个线粒体dna耗竭的非哺乳动物测序读段相对于一个或多个微生物参考数据库进行映射以确定所述一个或多个线粒体dna耗竭的非哺乳动物测序读段的微生物分类学身份。
172.根据权利要求171所述的方法,其包括对所述一个或多个线粒体dna耗竭的非哺乳动物测序读段进行去污。
173.根据权利要求172所述的方法,其中去污包括计算机模拟去污。
174.根据权利要求172所述的方法,其中去污被配置成去除非内源性微生物测序读段,由此生成经去污的微生物分类学分配和相关数量的测序读段。
175.根据权利要求171所述的方法,其中映射用qiime2或其支持的其它版本进行。
176.根据权利要求171所述的方法,其中所述一个或多个微生物参考数据库包括细菌16s rrna数据库greengenes;细菌、真菌和古菌rrna数据库silva;真核核糖体its区数据库unite;源自可公开获得且完整的微生物基因组序列的定制数据库;或其任何组合。
177.根据权利要求146所述的方法,其中所述一个或多个非哺乳动物测序读段的所述一个或多个基因组特征丰度包括微生物功能性基因丰度、生化通路丰度或其任何组合。
178.根据权利要求174所述的方法,其包括预测所述经去污的微生物分类学分配的宏基因组功能性含量,由此产生一个或多个功能性丰度。
179.根据权利要求178所述的方法,其中预测所述宏基因组功能性含量通过picrust2进行。
180.根据权利要求165所述的方法,其中所述液体活检样品包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、泪液、呼出气冷凝液或其任何组合。
181.根据权利要求146所述的方法,其中所述癌症类型包括肺癌、乳腺癌、卵巢癌、胃肠癌、头颈癌、肝癌、胰腺腺癌、前列腺癌、皮肤癌或其任何组合。
182.根据权利要求181所述的方法,其中所述肺癌包括非小细胞肺癌。
183.根据权利要求146所述的方法,其中所述癌症类型包括i期、ii期或iii期癌症。
184.根据权利要求146所述的方法,其包括生成经训练的预测模型,其中所述经训练的预测模型是用所述一个或多个受试者的所述特征集和所述健康状况训练的。
185.根据权利要求184所述的方法,其中所述经训练的预测模型包括机器学习模型、一种或多种机器学习模型、机器学习模型的集合或其任何组合。
186.根据权利要求184所述的方法,其中所述经训练的预测模型包括正规化机器学习模型。
187.根据权利要求185所述的方法,其中所述机器学习模型包括机器学习分类器。
188.根据权利要求185所述的方法,其中所述机器学习模型包括梯度提升机机器学习模型、神经网络机器学习模型、支持向量机机器学习模型、k均值机器学习模型、分类树机器学习模型、随机森林机器学习模型、回归机器学习模型或其任何组合。