一种用于检测样本污染水平的SNP位点的筛选方法及样本污染水平的检测方法与流程

    专利查询2023-08-02  72


    一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
    技术领域
    1.本发明涉及生物测序技术领域,具体而言,涉及一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法。


    背景技术:

    2.第二代测序ngs技术因其高通量低成本的特点快速发展并应用与肿瘤临床样本的基因组测序中。然而,多样本并行建库测序导致了样本间数据污染的问题。肿瘤临床样本多采用肿瘤-对照的配对设计,采用对照样本过滤肿瘤样本中存在的对应样本的胚系突变。通常,肿瘤样本的污染会导致大量异源污染的胚系突变被错误的判定为体细胞突变,从而导致检测出的体细胞突变中存现大量假阳性突变。同时,异源污染会使得肿瘤样本的纯度下降,进而导致肿瘤样本中的体细胞突变的检测敏感性降低。因此,准确地检测肿瘤临床样本的污染水平是不可或缺的质控步骤。
    3.全基因组测序(whole genome sequence,wgs)和全外显子测序(whole exome sequence,wes)能够覆盖一定量的人群多态性单核苷酸多态性(single nucleotide polymorphism,snp)位点。基于先验的人群频率以及配对样本中的肿瘤样本和对照样本的snp位点的野生型和突变型信息,用于样本污染水平估计已成功应用于全基因组测序和全外显子测序中。现有的代表方法有conest、conpair和verifybamid,此类方法均使用贝叶斯方法,使用wgs/wes覆盖的标记位点,标记数量众多。相比于verifybamid使用全部覆盖的snp位点,conest和conpair均使用其中的纯合位点。由于肿瘤样本中基因拷贝数变异cnv的普遍性,肿瘤样本的杂合位点受cnv影响会偏离配对样本中的突变丰度(variation alle fraction,vaf),从而导致verifybamid对于样本的污染水平估计值可能过高。
    4.尽管wgs和wes有助于更全面的检测和理解肿瘤基因突变全貌,其高昂的测序成本导致样本测序深度受限,且尚未有报道存在有效的基于panel的标记位点污染预测方法。污染水平预测作为肿瘤基因检测的必要质控模块,是肿瘤样本基因检测结果可靠性的重要保证。
    5.因此,开发一套适用于不同panel的标记位点筛选和污染水平预测方法是必要和紧迫的。若简单的将wes范围内的所有标记加入大panel中,以conpair算法为例,需覆盖wes范围内的7387个位点,若每个标记设计120bp探针将需要额外覆盖至少0.886mb的区间大小,显然将极大的增加panel大小和成本。同时,当标记位点过少时,conpair算法表现不佳。本发明污染预测算法,使得仅依赖大panel设计之初覆盖的标记位点即能准确预测样本的污染水平。
    6.鉴于此,特提出本发明。


    技术实现要素:

    7.本发明的目的在于提供一种用于检测样本污染水平的snp位点的筛选方法及样本
    污染水平的检测方法。
    8.本发明是这样实现的:
    9.第一方面,实施例提供了一种用于检测样本污染水平的snp位点的筛选方法,获取目标区域中人群突变频率为30%~70%的snp位点作为候选标记位点;将单一染色体上存在的所述候选标记位点中的起始位点和终止位点之间的区域划分为多个选择区域,所述选择区域的长度为0.7~1.3mb;若所述选择区域内存在两个及以上的候选标记位点,则选择该选择区域内等位基因频率为40%~60%且不同基因型最符合哈迪-温格伯平衡的位点作为标记位点,并去除该选择区域内的其他候选标记的位点。
    10.第二方面,实施例提供了一种用于检测样本污染水平的方法,其包括:使用如前述实施例所述的用于检测样本污染水平的snp位点的筛选方法筛选得到的污染标记位点。
    11.第三方面,实施例提供了一种用于检测样本污染水平的试剂盒,其包括用于检测目标snp位点的试剂,所述目标snp位点为由前述实施例所述的用于检测样本污染水平的snp位点的筛选方法筛选得到的标记位点。
    12.第四方面,实施例提供了一种电子设备,其包括存储器和处理器,所述处理器运行所述存储器中的计算机程序时,执行如前述实施例所述的用于检测样本污染水平的snp位点的筛选方法或如前述实施例所述的用于检测样本污染水平的方法。
    13.本发明具有以下有益效果:
    14.本发明实施例提供了一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法,该筛选方法包括获取目标区域中人群突变频率为30%~70%的snp位点作为候选标记位点;将单一染色体上存在的所述候选标记位点中的起始位点和终止位点之间的区域划分为多个选择区域,所述选择区域的长度为0.7~1.3mb;若所述选择区域内存在两个及以上的候选标记位点,则选择该选择区域内等位基因频率为40%~60%且不同基因型最符合哈迪-温格伯平衡的位点作为标记位点,并去除该选择区域内的其他候选标记位点。基于上述筛选方法筛选出的标记位点能够用于检测样本的污染水平,与现有技术相比,检测成本更低,检测准确性更高。
    附图说明
    15.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
    16.图1为实施例3中用于检测样本污染水平的方法的流程图;
    17.图2为试验例1中不同污染水平下的vaf差值分布图;
    18.图3为试验例1中纯合标记位点的数量分布图;
    19.图4为试验例1中本发明实施例3的方法的检测性能的表现结果图;
    20.图5为试验例2中实施例4和实施例5的检测方法的性能表现结果图。
    具体实施方式
    21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中
    的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
    22.以下结合实施例对本发明的特征和性能作进一步的详细描述。
    23.名称定义
    24.本文中的“snp”指单核苷酸多态性,主要指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性,为人类可以遗传的变异中最常见的一种。
    25.本文中的“哈迪-温格伯平衡”的英文为hardy-weinberg equilibrium,可以指理想状态下,各等位基因的频率在遗传中是稳定不变的,即保持着基因平衡。
    26.本文中的“野生型”可以指未突变的基因型;“突变杂合型”是指一对等位基因中,其中一个基因为突变型,另外一个为野生型;“突变纯合型”可以指一对等位基因均存在突变。
    27.本文中的“突变丰度”的英文为vaf,variant allele fraction,也称为variant allel frequency(变异等位基因频率),可以指测序过程中突变reads(读长)占总reads的比例,即计算公式可以为:
    28.vaf=allele depth/total depth。其中,allele depth为基因组每个位点支持突变基因型的reads(读长)覆盖深度,total depth为这个位点总reads覆盖深度。
    29.本文中的“秩和检验”,又称为wilcoxon秩和检验或rank sum test,它是一种非参数检验(nonparametric test),不依赖于总体分布类型,也不对总体参数进行统计推断的统计方法。
    30.技术方案
    31.首先,本发明实施例提供了一种用于检测样本污染水平的snp位点的筛选方法,可以应用于电子设备,所述电子设备用于执行以下步骤:获取目标区域中人群突变频率为30%~70%的snp位点作为候选标记位点;
    32.将单一染色体上存在的所述候选标记位点中的起始位点和终止位点之间的区域划分为多个选择区域,所述选择区域的长度为0.7~1.3mb;若所述选择区域内存在两个及以上的候选标记位点,则选择该选择区域内等位基因频率为40%~60%且不同基因型最符合哈迪-温格伯平衡的位点作为标记位点,并去除该选择区域内的其他候选标记位点。
    33.经一系列研究发现,基于覆盖n例无污染的阴性样本基因组中的snp候选位点,去除不同基因型显著偏移哈迪-温格伯平衡的位点以及可能连锁的临近位点,能够得到用于检测样本污染水平的污染标记位点。
    34.需要说明的是,“提取目标区域中人群突变频率在30%~70%的snp位点”是指提取突变频率落入30%~70%范围内的任意频率点值或频率范围的全部或部分snp位点,例如,提取突变频率为40%~60%的全部位点或部分位点,或者提取突变频率为45%~55%的全部位点或部分位点,或者提取突变频率为50%的全部位点或部分位点。在一些实施方式中,所述等位基因频率可以为40%、45%、50%、55%和60%中任意一种,优选为50%。
    [0035]“目标区域”为任何希望通过本发明的污染水平检测方法所表征的区域,包括但不限于测序的目标区域以及panel在基因组上的覆盖区域等。
    [0036]“snp位点”的信息及其在人群中的突变频率可以通过测序或者公共或商业数据库
    获得。对数据库不作具体限制,可选择现有的基因数据库。在一些实施方式中,基因数据库可以选自:gnomad,1000g,exac和popfreq_max_20150413数据库中的至少一个。
    [0037]
    以“0.7~1.3mb”作为选择区域的长度对候选位点进行选择,一方面能够有效避免候选位点之间出现发生连锁的临近位点;另一方面,能在不影响检测结果的情况下,降低标记位点的数量,以实现成本更低、检测有效性更高的检测。在一些实施方式中,还可以以0.7mb、0.8mb、0.9mb、1.0mb、1.1mb、1.2mb和1.3mb中的任意一个长度作为选择区域的长度进行划分。
    [0038]
    在一些实施方式中,选择突变杂合型比例为30%~70%的位点作为候选标记位点的突变杂合型比例可以为31%、35%、40%、45%、50%、55%、60%、65%和70%中的任意一种。上述突变杂合型比例的位点突变频率更稳定,将其作为候选标记位点能够增加后续污染水平预测的有效性。
    [0039]
    优选地,所述snp候选位点是基于n例无污染的阴性样本基因组中的人群突变频率为30%~70%的snp位点。这里的阴性样本可以理解为野生型样本,可以指与待测样本相对应且无污染的阴性对照样本。例如,当待测样本为肿瘤样本时,阴性样本为与之相对应的、无污染的健康个体样本。
    [0040]
    优选地,所述n≥50;优选地,所述n≥100;优选地,所述n≥500。
    [0041]
    在一些优选的实施方式中,当每个所述选择区域内,所述最符合哈迪-温格伯平衡的位点存在多个时,选择其中任意一个,以减少或避免污染标记位点中出现连锁的位点。
    [0042]
    在一些优选的实施方式中,所述不同基因型最符合哈迪-温格伯平衡的位点是指:在所述选择区域内,位点不均衡系数u最小的位点,所述位点不均衡系数u的计算公式如下:
    [0043]
    u=(s
    0-0.25)2+(s
    1-0.5)2+(s
    2-0.25)2;其中,s0、s1和s2分别为野生型、突变杂合型和突变纯合型在目标区域中的人群出现频率。需要说明的是,“野生型”指未发生突变的基因型。
    [0044]
    本发明实施例还提供了一种电子设备,其包括存储器和处理器,所述处理器运行所述存储器中的计算机程序时,执行如前述任意实施方式所述的用于检测样本污染水平的snp位点的筛选方法。
    [0045]
    该电子设备可以包括存储器、处理器、总线和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据,以执行本技术中描述的一个或多个功能。
    [0046]
    具体地,存储器可以是但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
    [0047]
    处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital si gnal processing,dsp)、专用集成电路(application specific integrated ci rcuit,asic)、现场可编程门阵列(field-programmable gate array,fpg a)或者其他可编程逻辑器件、分立门或者晶体管逻辑器
    件、分立硬件组件。
    [0048]
    该电子设备中的各组件可以采用硬件、软件或其组合实现。在实际应用中,该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、手持计算机、上网本、个人数字助理(personal digital assistant,pda)、可穿戴电子设备、虚拟现实设备等设备,因此本技术实施例对电子设备的种类不做限制。
    [0049]
    本发明实施例还提供了一种用于检测样本污染水平的方法,其包括:使用如前述任一实施方式所述的用于检测样本污染水平的snp位点的筛选方法筛选得到的污染标记位点。
    [0050]
    通过对上述筛选方法筛选出的污染标记位点进行确认和检测,能够对样本的污染水平进行预测,相对于现有技术而言,检测的标记位点更少,成本更低,对样本污染水平的预测结果更准确。
    [0051]
    在一些实施方式中,所述方法还包括对所述污染标记位点进行检测。具体地,对位点检测的方式不作任何限制,如可以通过引物、探针和芯片的中的任意一种方式进行,只要是通过检测上述污染标记位点进行样本污染水平检测的,则在本发明的保护范围内。
    [0052]
    优选地,所述方法还包括:将待测样本和/或未污染对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为作为纯合标记位点;将获得的待测样本的突变丰度vaf差值与不同污染水平下污染样本的vaf差值分布分别做秩和检验,分别获得不同污染水平下的p值。
    [0053]
    其中,所述待测样本的突变丰度vaf差值为:待测样本与无污染的阴性对照样本在所述纯合标记位点的vaf差值绝对值。具体地,待测样本为可能被污染或已经掺入了污染源(异源数据)的样本,可以为肿瘤样本,其阴性对照样本为无污染的健康个体的样本。
    [0054]
    所述不同污染水平下的污染样本的vaf差值分布为:参入不同水平污染源的污染样本分别与无污染的阴性对照样本在所述纯合标记位点的vaf差值绝对值分布。
    [0055]
    具体地,上述“将待测样本和/或未污染对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为纯合标记位点”是指:基于待测样本和/或无污染的对照样本的目标区域上存在的每个污染标记位点的基因型信息,将基因型为野生型或突变纯合型的污染标记位点挑选出来,作为纯合标记位点。“待测样本和/或无污染的对照样本的目标区域上存在的每个污染标记位点的基因型信息”可以通过现有基因检测的手段获得。
    [0056]
    优选地,将未污染对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为纯合标记位点。
    [0057]
    优选地,将待测样本和未污染对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为纯合标记位点。“待测样本和无污染的对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为纯合标记位点”是指将待测样本目标区域中基因型为纯合基因型的所述污染标记位点,与无污染的对照样本目标区域中基因型为纯合基因型的所述污染标记位点合并,合并后作为纯合标记位点。无污染的对照样本可以包括但不限于白细胞样本。
    [0058]
    在一些实施方式中,所述方法还包括构建不同污染水平的污染样本:将样本分为待污染的样本和无污染的对照样本,在待污染的样本中加入不同污染比例的污染源以获得
    不同污染比例(质量比)的污染样本。待污染的样本或对照样本可选自白细胞样本或现有的细胞系样本。污染样本中的污染源可选自不同于“待污染的样本”的其他白细胞或细胞系样本。
    [0059]
    优选地,所述不同污染水平的污染比例选自0.01%~99.9%。具体地,不同污染水平可以为0.01%、1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%和99.9%中的任意一种。
    [0060]
    在检测时,不同污染水平的跨度范围可以为:0~1%,每间隔0.1%设置一组污染样本(记为0~1%,每隔0.1%);不同污染水平的跨度范围可以为:1%~10%,每间隔0.5%设置一组污染样本;不同污染水平的跨度范围还可以为:10%~100%,每间隔1%设置一组污染样本,依此类推。
    [0061]
    在一些实施方式中,统计分析采用spss10.0统计分析软件进行计算。所有的统计检验均采用双尾检验。
    [0062]
    优选地,所述方法包括:确定不同污染水平下p值的最大值,将p值的最大值对应的污染水平判定为待测样本的污染水平。p值可以反应样本的vaf差值与理论分布的吻合程度,p值越大越符合。
    [0063]
    优选地,所述污染标记位点包括表1中的(1)~(60)中的至少1个;
    [0064]
    表1污染标记位点
    [0065]
    [0066][0067]
    优选地,所述污染标记位点包括表1中的(1)~(60)中的至少10个;优选地,所述污染标记位点包括表1中的(1)~(60)中的至少20个。
    [0068]
    在一些实施方式中,在对标记位点进行筛选前,所述方法还包括:样本的建库步骤和/或测序步骤。样本的建库和测序步骤可分别参照现有的建库和测序步骤进行实施。
    [0069]
    本发明实施例还提供了一种电子设备,其包括存储器和处理器,所述处理器运行所述存储器中的计算机程序时,执行如前述任意实施方式所述的用于检测样本污染水平的方法。
    [0070]
    此外,本发明实施例还提供了一种用于检测样本污染水平的试剂盒,其包括用于检测目标snp位点的试剂,所述目标snp位点为由前述任意实施方式所述的筛选方法筛选得到的标记位点。
    [0071]
    优选地,所述污染标记位点包括表1中的(1)~(60)中的至少一个;
    [0072]
    优选地,所述污染标记位点包括表1的(1)~(60)中的至少10个;
    [0073]
    优选地,所述污染标记位点包括表1中的(1)~(60)中的至少20个。
    [0074]
    优选地,所述试剂的类型选自:探针、引物和芯片中的至少一种。
    [0075]
    实施例1
    [0076]
    一种用于检测样本污染水平的snp位点的筛选方法,具体包括以下步骤:
    [0077]
    (1)使用popfreq_max_20150413数据库,提取人群频率为40%~60%的位点作为snp候选位点。
    [0078]
    (2)提取n例(500)白细胞样本(无污染的阴性样本)中snp候选位点的基因型信息。
    选择人群突变频率为40%~60%的位点作为候选标记位点。
    [0079]
    同时,将每条染色体上存在的所述候选位点中的起始的位点和终止的位点之间的区域划分为多个选择区域,每个选择区域的长度均为1mb;若所述选择区域内存在2个以上的候选标记位点,则挑选等位基因频率为50%且位点不均衡系数u最小的位点(若存在多个最小位点,任选其中之一)作为污染标记位点,并去除该选择区域内的其他候选标记位点,合并所有染色体上挑选出的污染标记位点,获得最终的污染标记位点合集。
    [0080]
    上述位点不均衡系数u的计算公式如下:
    [0081]
    u=(s
    0-0.25)2+(s
    1-0.5)2+(s
    2-0.25)2;其中,s0、s1和s2分别为野生型、突变杂合型和突变纯合型在500例白细胞样本基因组中的比例。
    [0082]
    实施例2
    [0083]
    一组用于检测样本污染水平的snp位点(panel),其由实施例1的筛选方法筛选而得,具体包括表1中的60个snp位点。
    [0084]
    实施例3
    [0085]
    一种用于检测样本污染水平的方法,流程图参照附图1,具体包括以下步骤。
    [0086]
    (1)不同污染水平下的污染样本的vaf差值分布的构建:
    [0087]
    1.1样本建库:随机抽取500例肿瘤样本中的1例作为被污染样本,再挑选1例作为污染源,在肿瘤样本中模拟参入不同污染水平的污染源(异源数据),每个污染水平下重复500次。获取不同污染水平的污染样本。分别取50ng配制不同污染水平下的污染样本以及对照样本(未污染的)进行后续的建库实验,建库主要包括以下步骤:
    [0088]
    a、将样本进行打断以及末端修复;b、将上述修复后的dna片段进行接头连接;c、将上述接头连接后的产物进行pcr扩增,得到足量带有接头的dna片段,即为预文库。d、对预文库进行磁珠纯化,并进行浓度测定和片段质检;e、对预文库进行探针杂交;f、使用链霉亲和素磁珠对探针结合的样本进行捕获;g、将磁珠捕获到的dna片段进行pcr扩增,得到足量的加上标签的dna片段,即为终文库;h、对终文库进行磁珠纯化,并进行浓度测定和片段质检,利用qpcr进行定量。
    [0089]
    1.2收集样本二代测序数据:基于建立获得的文库,采用目标区域多外显子探针捕获,使用基因测序仪,案子仪器标准操作规程进行150bp pair-end模式测序(read1:151;read2:151;index1:8,index2:8),最终得到fastq格式二代测序数据作为原始数据(raw data)。
    [0090]
    1.3数据拆分质控:使用bcl2fastq进行数据的拆分,使用fastp进行数据的质控,得到配对样本高质量的数据(clean data)。
    [0091]
    1.4数据比对:使用bwa软件将clean data比对至参考基因组hg19序列上,获得每个测序段片段(read)的比对信息,之后使用gencore对比结果进行去重与碱基校正。
    [0092]
    1.5标记位点筛选:污染标记位点选用实施例2提供的污染标记位点。
    [0093]
    1.6纯合标记位点的vaf差值计算:
    [0094]
    纯合标记位点的获取方法:基于检测获取的待测样本基因组以及无污染的对照样本上每个污染标记位点的基因型信息,将待测样本基因组上基因型为野生型或突变纯合型的污染标记位点与无污染对照样本基因组上基因型为野生型或突变纯合型的污染标记位点合并,作为纯合标记位点。
    [0095]
    通过pysam软件包,分别获得待测样本及其对照样本在每个污染标记位点的vaf值,并计算肿瘤样本(待测样本)在纯合标记位点与对照样本的vaf差值绝对值。得到对应污染水平下污染样本与对照样本在纯合标记位点vaf差值绝对值的参考分布。
    [0096]
    (2)秩和检验:使用待测样本与对照样本在纯合标记位点的vaf差值与不同污染水平下污染样本与其对照样本在纯合位点的vaf差值绝对值的参考分布分别做秩和检验,计算p-value值(双尾检验)。
    [0097]
    (3)污染水平预测:
    [0098]
    依据最大的p-value值,确认待测样本的污染水平。
    [0099]
    实施例4
    [0100]
    一种用于检测样本污染水平的方法,大致同实施例3提供的方法,区别在于,选用的污染标记位点为30个,均选自表1中的污染标记位点,位点的信息具体如表2所示。
    [0101]
    表2污染标记位点
    [0102]
    [0103][0104]
    实施例5
    [0105]
    一种用于检测样本污染水平的方法,大致同实施例3提供的方法,区别在于,污染标记位点为60个,其中,30个选自表1,另外30个为不同于表1的其他位点(加粗的位点为不同于表1的标记位点,其为突变杂合型比例为40%~60%的其他位点),具体请参照表3。
    [0106]
    表3污染标记位点
    [0107]
    [0108][0109]
    [0110]
    试验例1
    [0111]
    采用实施例3的方法与现有技术conpair的检测效果对比。
    [0112]
    首先,构建模拟污染样本,采用实施例3的方法对模拟样本进行污染水平的检测。构建参考分布的步骤包括:随机抽取500例细胞系样本中1例作为被污染样本(已知未污染的样本),随机再选取其他白细胞或细胞系样本作为污染源,按质量比进行不同污染比例的掺入,获得不同污染水平下的污染样本,每个污染水平下随机抽取500个污染样本和其对照样本(未掺入污染源的样本),获得vaf差值分布,请参照图2。
    [0113]
    然后,构建不同污染水平下的真实样本,真实样本为可能被污染过的临床样本。选择其他细胞系样本作为污染源掺入到真实样本中,获得不同污染水平下的真实样本。分别采用实施例3的方法以及现有的conpair方法对不同污染水平的真实样本进行污染水平的检测。两种方法的标记位点信息如表4所示。
    [0114]
    表4检测位点
    [0115]
    方法标记数量conpair7387本发明的方法60
    [0116]
    实施例3提供的检测方法所覆盖的纯合标记位点的数量分布图请参照附图2。其中,real data(真实数据)是指在检测真实样本时所获得的纯合标记位点的分布情况;simulate data:模拟数据,为随机生成的二项分布随机数(模拟参数n为60,p为0.5的二项分布b(60,0.5))。由结果可知,筛选得到的纯合标记位点的数量分布与理论分布一致,说明污染标记位点的筛选条件有效且与理想情况接近。
    [0117]
    实施例3的检测方法以及conpair样本污染水平的部分检测结果如表5所示。
    [0118]
    表5检测结果对比
    [0119][0120]
    由图3和表5可知,本发明实施例3的方法所需覆盖标记位点少,相比于现有工具大于1000标记位点的限制,可以通过灵活筛选或内嵌至不同panel产品中,应用灵活广泛。
    [0121]
    实施例3的检测方法的性能表现请参照附图4。具体地,图4中a为实施例3的方法在模拟污染样本检测中的性能表现结果,图4中b为实施例3的方法在不同污染水下真实样本检测中的性能表现结果。
    [0122]
    由结果可知,模拟污染样本中,分析预测值与理论值相关性决定系数为0.9984,真实样本中,分析预测值与理论值相关性决定系数为0.9987。conpair在真实样本检测中表现不佳。相比于conpair,本发明实施例3的方法预测值更接近真实数值。
    [0123]
    试验例2
    [0124]
    对比实施例3、4和5提供的方法的检测效果。
    [0125]
    检测方法
    [0126]
    采用实施例3、4和5提供的方法对61个已知污染水平的样本进行检测,检测结果请参照表6。
    [0127]
    表6检测结果
    [0128]
    [0129][0130]
    实施例4的检测方法的性能表现请参照附图5中b,实施例5提供的检测方法的性能表现请参照图5中a。
    [0131]
    由结果可知,实施例4的检测方法分析预测值与理论值相关性决定系数为0.9937,实施例5的检测方法分析预测值与理论值相关性决定系数为0.9993。可以看到标记位点随机替换30个标记(实施例5)后的性能表型变化较小(0.9987vs 0.9993),表明只要满足标记位点的筛选条件,任意60rs标记位点的性能表现稳定。
    [0132]
    当标记数量降低至30个(实施例4)时,预测性能有所下降,决定系数下降至0.9937,表明,降低标记数量预测性能会有所下降,但30标记预测污染仍具有可行性。
    [0133]
    以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

    技术特征:
    1.一种用于检测样本污染水平的snp位点的筛选方法,其特征在于,获取目标区域中人群突变频率为30%~70%的snp位点作为候选标记位点;将单一染色体上存在的所述候选标记位点中的起始位点和终止位点之间的区域划分为多个选择区域,所述选择区域的长度为0.7~1.3mb;若所述选择区域内存在两个及以上的候选标记位点,则选择该选择区域内等位基因频率为40%~60%且不同基因型最符合哈迪-温格伯平衡的位点作为标记位点,并去除该选择区域内的其他候选标记位点。2.根据权利要求1所述的用于检测样本污染水平的snp位点的筛选方法,其特征在于,所述不同基因型最符合哈迪-温格伯平衡的位点是指:在所述选择区域内位点不均衡系数u最小的位点,所述位点不均衡系数u的计算公式如下:u=(s
    0-0.25)2+(s
    1-0.5)2+(s
    2-0.25)2;其中,s0、s1和s2分别为野生型、突变杂合型和突变纯合型在目标区域中的人群出现频率。3.根据权利要求2所述的用于检测样本污染水平的snp位点的筛选方法,其特征在于,当一个所述选择区域内,所述最符合哈迪-温格伯平衡的位点存在多个时,选择其中任意一个;优选地,所述snp候选位点是基于n例无污染的阴性样本基因组中的人群突变频率为30%~70%的snp位点;优选地,所述n≥50;优选地,所述n≥100。4.根据权利要求1~3任一项所述的用于检测样本污染水平的snp位点的筛选方法,其特征在于,所述snp候选位点为基因数据库中出现频率为40%~60%的位点。5.一种用于检测样本污染水平的方法,其特征在于,其包括:使用如权利要求1~4任一项所述的用于检测样本污染水平的snp位点的筛选方法筛选得到的污染标记位点。6.根据权利要求5所述的用于检测样本污染水平的方法,其特征在于,所述方法包括:将待测样本和/或无污染对照样本目标区域中基因型为纯合基因型的所述污染标记位点作为纯合标记位点;将获得的待测样本的突变丰度vaf差值与不同污染水平下污染样本的vaf差值分布分别做秩和检验,分别获得不同污染水平下的p值;其中,所述待测样本的突变丰度vaf差值为:待测样本与无污染的阴性对照样本在所述纯合标记位点的vaf差值绝对值;所述不同污染水平下的污染样本的vaf差值分布为:参入不同水平污染源的污染样本分别与无污染的阴性对照样本在所述纯合标记位点的vaf差值绝对值分布。7.根据权利要求6所述的用于检测样本污染水平的方法,其特征在于,所述方法包括:确定不同污染水平下p值的最大值,将p值的最大值对应的污染水平判定为待测样本的污染水平;优选地,所述不同污染水平的污染比例选自0.01%~99.9%。8.根据权利要求6所述的用于检测样本污染水平的方法,其特征在于,所述污染标记位点包括下表中的(1)~(60)中的至少1个;
    优选地,所述污染标记位点包括上表中的(1)~(60)中的至少10个;优选地,所述污染标记位点包括上表中的(1)~(60)中的至少20个。9.一种用于检测样本污染水平的试剂盒,其特征在于,其包括用于检测目标snp位点的试剂,所述目标snp位点为由权利要求1~4任一项所述的用于检测样本污染水平的snp位点的筛选方法筛选得到的污染标记位点;优选地,所述污染标记位点包括上表中的(1)~(60)中的至少一个;优选地,所述污染标记位点包括上表中的(1)~(60)中的至少10个;优选地,所述污染标记位点包括上表中的(1)~(60)中的至少20个。10.一种电子设备,其特征在于,其包括存储器和处理器,所述处理器运行所述存储器中的计算机程序时,执行如权利要求1~4任一项所述的用于检测样本污染水平的snp位点的筛选方法或如权利要求5~8任一项所述的用于检测样本污染水平的方法。

    技术总结
    本发明公开了一种用于检测样本污染水平的SNP位点的筛选方法及样本污染水平的检测方法,涉及生物测序技术领域,该筛选方法包括获取目标区域中人群突变频率为30%~70%的SNP位点作为候选标记位点;将单一染色体上存在的所述候选标记位点中的起始位点和终止位点之间的区域划分为多个选择区域,所述选择区域的长度为0.7~1.3Mb;若所述选择区域内存在两个及以上的候选标记位点,则选择该选择区域内等位基因频率为40%~60%且不同基因型最符合哈迪-温格伯平衡的位点作为标记位点,并去除该区域内的其他候选标记。基于上述筛选方法筛选出的标记位点能够用于检测样本的污染水平,与现有技术相比,检测成本更低,检测准确性更高。高。高。


    技术研发人员:柳焱 白健 王寅 屈紫薇 吴琳
    受保护的技术使用者:北京和瑞精准医疗器械科技有限公司
    技术研发日:2020.11.23
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-17880.html

    最新回复(0)